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内 容 简 介 


Python 是 当前 金融 行业 的 主流 编程 语言 ,金融 机 构 特别 是 量化 投资 领域 大 量 使 用 Python 进行 数据 
分 析 以 及 投资 策略 测试 , 实 盘 交易 等 。 财 经 类 院 校 基本 上 没有 开设 Python 编程 这 门 课 ,主要 还 是 
Excel\R 等 。 

本 书 主要 包括 三 部 分 : 介绍 金融 领域 内 的 前 沿 科 技 ,主要 是 大 数据 、 云 计算 、 人 工 智能 等 ;二 是 
Python 数据 分 析 篇 ,主要 介绍 Python 编程 基础 ,Pandas 数据 分 析 以 及 网 络 爬 虫 ; 三 是 量化 投资 篇 ,主要 
包括 量化 投资 常见 策略 ,当前 国内 量化 投资 平台 简介 ,平台 策略 开发 案例 分 析 等 。 

本 书 适合 财经 类 院 校 的 学 生 ,金融 机 构 的 从 业 人 员 学 习 , 上 手 简单 ,有 助 于 在 大 数据 背景 下 的 各 种 
金融 投资 技术 的 应 用 开发 。 
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写 在 前 面 的 话 


我 本 科 和 研究 生 都 是 学 数学 的 ,和 朋友 见面 ,很 多 时 候 知道 你 是 数学 专业 的 ,都 会 沉 
得 你 好 聪明 ,数学 不 是 一 般 人 能 学 习 的 。 说 实话 ,一 直 以 来 ,我 都 认为 数学 和 其 他 学 科 没 
什么 两 样 ,只 是 每 个 人 口味 不 同 而 已 ,一 些 人 喜欢 物理 ,一 些 人 喜欢 土木 工程 ;就 像 在 农村 
学 做 个 砖 匠 、 木 匠 或 者 瓦 匠 一 样 ,只 是 一 门 技艺 。 大 部 人 学 习 一 门 专业 ,其 实 更 多 的 是 一 
种 方法 论 的 学 习 , 专 业 修养 的 积累 ;同时 ,做 着 文化 传承 的 工作 。 当 然 , 肯 定 也 会 有 一 些 有 
兴趣 或 天 赋 的 人 一 生 致力 于 数学 某 一 个 领域 的 研究 ,比如 陈景润 。 

那么 对 于 文科 背景 的 人 在 当今 这 样 的 时 代 , 怎 样 快 速 掌 握 金融 领域 内 的 科技 以 及 量 
化 金融 工作 方法 呢 ? 我 认为 方法 论 就 很 重要 。 比 如 我 学 习 的 是 数学 ,大 学 时 期 就 开始 做 
家 教 , 办 培训 班 ,对 于 数学 我 会 看 重 三 点 : 一 是 数学 研究 某 一 事物 一 般 遵循 三 个 步骤 ，, 首 
先 把 要 研究 东西 的 放 在 一 起 ,也 就 是 要 定义 一 些 东西 ;接着 就 要 研究 基于 这 个 定义 的 这 些 
东西 有 什么 性 质 ,如 果 是 代数 方面 的 就 是 有 哪些 运算 规则 ;最 后 就 是 这 些 性 质 对 于 我 们 生 
活 有 什么 用 ,怎么 解决 现实 的 问题 。 二 是 搞 数 学 就 是 搞 关 系 ,我 们 搞 清楚 了 这 个 东西 的 性 
质 ,那个 东西 的 性 质 也 搞 清 楚 了 ,它们 之 间 有 什么 关系 呢 , 某 一 个 定理 或 者 结论 总 是 要 解 
杰 事 物 间 的 关系 。 三 是 我 们 总 是 在 受 约束 的 条 件 下 解决 一 个 最 优化 的 问题 ,不 管 是 搞 学 
术 还 是 工作 、 生 活 都 面临 一 个 约束 条 件 , 我 们 要 认识 到 这 个 约束 条 件 , 然 后 去 讨论 可 行 性 ， 
找 出 最 优化 的 方案 。 

写 这 么 多 其 实 就 是 想 说 ,我 接 下 来 介绍 的 金融 科技 都 是 基于 这 样 的 理念 去 阐述 的 , 希 
望 大 家 掌握 一 个 模型 ,快速 掌握 这 些 信 息 ,至 少 让 我 们 在 这 个 行业 有 一 幅 “ 地 图 ”, 知 道 应 
该 在 哪个 方面 去 最 大 化 自己 的 能 力 和 豪 赋 ,在 工作 和 生活 中 更 加 游 丸 有 余 。 


当 我 们 做 一 件 事情 或 说 一 句 话 的 时 候 都 是 有 假设 条 件 的 ,我 们 没有 口头 
提出 是 因为 如 果 我 们 每 次 说 话 都 要 像 做 数学 题 一 样 , 先 把 假设 条 件 说 一 下 ， 
再 沟通 也 确实 太 闷 或 者 无 味 了 。 

我 想必 须 是 要 有 前 言 来 说 明 一 下 写 这 本 书 的 动机 ,而 这 个 动机 的 背景 、 
假设 以 及 定位 也 要 在 这 里 做 个 具体 的 介绍 。 

还 得 从 2010 年 股指 期 货 开 通 说 起 ,股指 期 货 的 推出 使 得 量化 投资 开始 
兴起 ,CTP( 综 合 交易 开发 平台 ) 的 推出 使 得 很 多 从 事 软件 行业 或 者 理工 科 背 
景 的 “牛人 ”纷纷 转行 进入 股指 期 货 交易 这 个 领域 ,当然 那 几 年 国内 很 多 外 资 
背景 的 电子 行业 的 公司 撤 出 中 国 也 导致 很 多 计算 机 行业 从 业 人 员 转 行 过 来 ， 
这 和 《我 的 宽容 人 生 }》 里 的 主人 公所 处 背景 差不多 : 美国 “冷战 ”结束 ,在 军工 
方面 的 经 费 投 入 急剧 减少 ,使 得 很 多 火箭 专家 纷纷 投入 华尔街 。 新 兴 事 物 的 
发 展 总 是 由 各 种 机 缘 促成 的 ,这 几 年 大 数据 、 云 计算 和 区 块 链 等 科技 在 大 众 
创业 、 万 众 创新 的 潮流 中 精彩 纷呈 ,从 华尔街 回来 的 “80 后 ”创建 自己 的 对 冲 
基金 ,量化 对 冲 基金 逐渐 成 为 国内 的 主流 。 

总 之 ,科技 在 改变 生活 ,而 离 得 最 近 、 最 值得 挑战 的 就 是 金融 市 场 ,我 们 
现在 从 事 金 融 行业 ,研究 量化 投资 和 量化 技术 。 

这 本 书面 向 的 读者 是 财经 院 校 的 大 学 生 或 者 研究 生 , 所 以 我 不 会 讲 很 多 
知识 点 ,不 会 讲 得 很 复杂 , 尽 可 能 讲 得 清楚 。 我 认为 本 书 更 像 是 一 幅 地 图 ,能 
让 读者 迅速 了 解 这 个 行业 ,能 掌握 一 个 模型 ,快速 上 手 去 实战 或 参与 项 目 , 然 
后 不 断 深入 。 

本 书 可 以 作为 培训 教材 ,其 定位 也 是 希望 让 非 财经 院 校 背景 的 学 生 毕 业 
后 能 迅速 了 解 当 前 金融 市 场 的 生态 ,能 在 金融 机 构 迅速 上 手 做 项 目 或 成 为 一 
名 基金 经 理 助 理 ; 能 让 金融 从 业 人 员 或 者 投资 者 更 好 地 使 用 量化 投资 工具 进 
行 数据 分 析 , 从 而 更 好 地 进行 投资 。 

同时 ,本 书 不 会 花 时 间 去 介绍 投资 组 合 、 风 险 管理 等 理论 ,更 多 强调 的 是 
使 用 Python, 而 且 假 设 都 是 使 用 Windows 系统 ,我 们 不 会 告诉 读者 要 在 
Linux 或 者 Mac 上 怎么 做 ,我 们 仅仅 提供 一 个 系统 的 解决 方案 , 让 读者 快速 
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Cr) 量化 投资 与 Python 语言 


学 习 并 掌握 方法 ,通过 掌握 现代 金融 理论 展示 自己 的 能 力 。 
时 势 造 英雄 。 和 希望 读者 乘 着 多 层次 金融 市 场 建设 和 创新 创业 的 大 风 , 临 风 起 舞 , 驭 风 
而 行 ! 
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1.1 谈 谈 方法 论 


大 家 都 知道 现在 是 大 数据 时 代 , 到 处 都 是 数据 ,结果 就 是 数据 到 处 都 是 ,但 有 用 的 信 
息 却 越 来 越 少 了 。 怎 样 从 大 量 繁杂 的 数据 中 得 到 有 效 的 数据 或 者 怎么 去 利用 这 些 数据 ， 
需要 方法 论 的 指导 。 

比如 ,现在 很 多 场合 ,看 微 信 朋 友 圈 成 了 最 好 的 社交 应 对 策略 。 农 寞 无 聊 的 时 候 看 看 
朋友 圈 , 走 在 路 上 看 看 朋友 圈 , 人 多 的 时 候 不 想 说 话 了 ,看 看 朋友 圈 。 朋 友 圈 的 信息 真 的 
是 也 括 万 千 , 应 有 尽 有 。 在 信息 碎片 化 的 时 代 , 我 们 很 容易 迷失 ,以 为 自己 了 解 了 很 多 ,其 
实 真 要 让 自己 做 个 整理 才 发 现 ,好 像 什么 都 不 清晰 。 其 实 ,我 们 要 的 不 是 所 有 权 , 而 是 使 
用 权 ;我们 要 的 不 是 大 量 的 信息 ,而 是 利用 这 些 信息 的 能 力 。 

写 这 本 书 的 第 一 个 目的 就 是 要 解决 这 样 的 问题 ,我们 能 利用 现 有 的 信息 ,更 好 地 展示 
我 们 的 价值 。 

记得 当年 比较 火 的 一 部 电视 剧 叫 ( 射 内 英雄 传 》, 闲 暇 时 间 又 看 了 一 遍 , 郭 靖 这 个 形象 
当然 很 是 鲜明 ,但 更 引起 我 关注 的 还 是 武侠 小 说 里 面 的 全 真 派 的 心 法 和 各 门派 武功 的 关 
系 了 ,郭靖 在 学 习 了 全 真 派 的 心 法 后 武 学 突飞猛进 ,后 来 学 习 各 种 武功 都 能 融会 贯通 ,这 
就 像 我 们 要 学 习 国学 打 好 基础 ,再 学 习 其 他 科目 ;或 者 掌握 方法 再 学 习 其 他 技能 一 样 。 总 
之 要 处 理 好 内 容 与 形式 的 关系 ,做 金融 行业 更 是 如 此 。 

现在 社会 上 开始 倡导 读书 ,图 书 出 版 市 场 也 算是 火 起 来 了 ,图 书 价格 也 在 加 速 上 涨 。 
我 认为 图 书 可 以 分 为 以 下 四 类 。 

(1) 有 营养 ,有 包装 的 书 。 

(2) 没有 营养 ,有 包装 的 书 。 

(3) 有 营养 ,没有 包装 的 书 。 

(4) 没有 营养 ,没有 包装 的 书 。 

比如 中 国 四 大 名 著 就 是 有 营养 的 书 , 而 有 一 些 卖 “ 鸡 汤 ” 的 书 翻 了 一 遍 后 都 不 知道 究 
竞 要 表达 什么 ,就 像 吃 方便 面 一 样 ,确实 也 解决 了 一 些 问 题 , 但 总 是 觉得 没 营养 。 

我 希望 读者 看 完 这 本 书 之 后 ,能 火眼金睛 地 选择 你 要 读 的 书 , 并 快速 地 吸收 知识 , 转 
化 成 你 需要 的 实用 的 信息 并 应 用 于 实践 。 

现在 这 个 时 代 , 各 种 专业 术语 以 及 网 络 术语 每 天 都 在 更 新 , 稍 不 注意 可 能 都 不 知道 对 
方 在 做 什么 。 

前 几 年 ,大 家 都 在 谈 P2P, 说 互联 网 金融 ,从 2016 年 开始 ,大 家 又 纷纷 提 及 的 词 是 
fintech, 也 就 是 金融 科技 。 

今年 这 个 词 更 加 泛滥 了 ,好像 不 提 人 金融 科技 .就 不 是 在 做 创新 ,不 是 在 做 金融 行业 。 
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可 问题 就 来 了 ,假如 隔壁 的 二 娃 问 你 ,科技 金融 和 金融 科技 有 什么 区 别 呢 ? 可 能 你 会 
觉得 , 哦 ,好 像 没 想 过 ,然后 你 就 支 支吾 吾 , 如 果 你 还 在 金融 圈 混 , 想 想 你 的 形象 是 不 是 一 
下 就 弱 了 很 多 呢 ? 

举 个 例子 ,假设 你 是 一 个 做 大 数据 的 技术 “牛人 ”, 有 一 次 高 中 同学 聚会 ,大 家 在 一 起 
聚餐 ,然后 隔壁 的 老 王 夹 了 口 菜 说 好 吃 啊 ,又 夹 了 口 菜 说 这 个 也 很 好 吃 啊 ;然后 你 突然 放 
下 筑 子 半 开 玩笑 半 认 真 地 说 ,其 实 我 认为 这 个 世界 上 最 有 营养 的 菜 有 两 种 ,这 个 时 候 可 能 
你 身边 的 梁 花 、 油 菜花 还 有 小 明 都 没 回 应 说 来 听 听 呢 , 然 后 你 说 第 一 种 就 是 最 难 闻 的 , 男 
外 一 种 就 是 最 难 吃 的 。 这 个 时 候 可 能 他 们 就 突然 会 发 现 , 哇 ,原来 你 还 是 很 懂 养 生 之 道 
嘛 ,好 像 美食 专家 一 样 ,而 事实 上 ,可 能 你 就 是 一 个 宅男 ,无 非 就 是 运用 了 二 分 法 ,而 这 种 
方法 在 数学 以 及 很 多 学 科 上 应 用 得 太 多 了 。 


1.2 金融、 科技 和 互联 网 


现在 各 种 术语 满天飞 ,有 时 候 我 们 可 能 都 不 知道 到 底 是 什么 意思 ,这 就 为 我 们 塑造 价 
值 提供 了 机 会 ,我 们 得 有 策略 地 告诉 对 方 , 我 们 对 这 些 知识 和 前 沿 方向 掌握 得 更 好 、 更 
专业 。 

互联 网 金融 ,科技 金融 和 金融 科技 其 实 不 就 是 金融 .科技 和 互联 网 的 名 词组 合 嘛 , 那 
么 我 们 还 得 顾名思义 ,至 少 这 是 思考 的 很 重要 的 第 一 步 。 

互联 网 金融 和 科技 金融 强调 的 是 金融 ,互联 网 和 科技 只 是 一 个 定语 。 很 多 学 科 都 需 
要 这 么 简单 的 一 个 道理 的 建立 ,比如 司法 考试 (2018 年 就 是 法 律 职 业 资 格 考试 ) 在 刑法 这 
方面 ,各 个 罪名 的 解释 就 是 一 个 很 重要 的 技术 。 

比如 ,有 个 小 白 问 你 ,互联 网 金融 是 什么 呢 ? 我 们 怎么 回答 呢 , 你 可 以 直接 说 就 是 互 
联网 时 代 的 金融 嘛 ,当然 这 样 确实 也 是 太 闷 了 ,我 们 适当 包装 一 下 就 好 了 ,我 们 可 以 这 样 
讲 : 互联 网 金融 ,顾名思义 就 是 互联 网 情景 的 新 兴 金 融 业 务 模式 。 甚 至 ,还 可 以 加 一 句 
“在 美国 这 样 的 发 达 国 家 没有 互联 网 金融 ”这 种 说 法 的 。 这 样 的 回答 ,至 少 让 对 方 觉得 你 
举重 若 轻 ,很 专家 的 样子 。 

同时 ,最 勾魂 的 是 ,你 要 互动 ,要 让 对 方 参与 ,让 对 方 真正 觉得 你 专业 的 还 是 你 提问 的 
方式 。 比 如 ,你 可 以 向 对 方 抛 出 一 个 话题 : 你 知道 互联 网 金融 的 核心 是 什么 ? 

或 者 ,你 也 可 以 这 么 问 : 你 知道 是 什么 让 互联 网 和 金融 搞 在 一 起 的 吗 ? 

对 方 可 能 会 问 : 你 说 的 是 P2P、 大 数据 、 互 联网 、 民 间 理 财 这 些 吗 ? 对 方 可 能 会 把 他 
接收 到 的 信息 或 者 概念 很 凌乱 地 抛 给 你 。 

这 个 时 候 , 你 要 显得 很 专业 地 说 : 其 实 就 是 两 个 字 , 支 付 。 

对 方 一 听 , 忽 然 觉得 ,很 有 道理 啊 。 

下 面 这 些 就 是 你 发 挥 的 依据 了 。 

无 支付 不 金融 。 

金融 的 最 基本 功能 是 存 、 贷 、 汇 , 即 货 币 资金 的 聚集 功能 、 运 用 功能 、 支 付 功 能 。 随 着 
现代 金融 的 发 展 ,三 个 功能 中 的 聚集 功能 、 运 用 功能 都 得 到 了 快速 发 展 ,演化 出 了 不 同 的 
银行 证券. 期货, 保险 ,信托 、 基 金 等 金融 机 构 承 担 并 实现 其 功能 ,只 有 支付 功能 没有 得 到 


充分 发 展 并 制约 了 金融 功能 的 发 挥 . 实 现 、 深 化 、 创 新 以 及 对 居民 个 人 、 组 织 交 往 和 实体 经 
济 提供 服务 。 

在 市 场 经 济 时 代 , 经 济 和 社会 活动 ,很 多 都 需要 完成 交易 ,促成 交易 完成 的 “最 后 一 
里 ?是 支付 。 虽 然 传统 金融 组 织 ,市场 、 产 品 创新 都 比较 快 ,而 支付 组 织 、 支 付 工 具 、 支 付 形 
式 和 支付 功能 的 实现 ,与 互联 网 时 代 的 支付 需求 拉 开 了 差距 ,从 而 促成 了 第 三 方 支付 的 

在 第 三 方 支付 产生 以 前 ,支付 清算 体系 是 客户 与 商业 银行 建立 联系 ,商业 银行 与 中 央 
银行 建立 联系 ,中 央 银 行 是 所 有 商业 银行 支付 清算 的 对 手 方 ,能 够 通过 轧 差 进行 清算 。 在 
原 有 支付 清算 模式 下 ,由 于 客户 不 能 与 中 央 银 行 之 间 直 接 建 立 联 系 ,客户 必须 分 别 与 每 一 
家 商业 银行 建立 联系 ,支付 清算 的 效率 较 低 。 

第 三 方 支付 诞生 以 后 ,客户 与 第 三 方 支付 公司 建立 联系 ,第 三 方 支付 公司 代替 客户 与 
商业 银行 建立 联系 。 这 时 第 三 方 支付 公司 成 为 客户 与 商业 银行 支付 清算 的 对 手 方 ,第 三 
方 支付 公司 通过 在 不 同 银行 开 立 的 中 间 账 户 对 大 量 交 易 资 金 实 现 轧 差 ,少量 的 跨行 支付 
则 通过 中 央 银 行 的 支付 清算 系统 来 完成 。 

那么 问题 又 来 了 ,传统 支付 和 第 三 方 支付 有 什么 区 别 呢 ( 如 图 1-1 所 示 )? 


互联 网 技术 


互联 网 技术 


互联 网 技术 
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互联 网 技术 


传统 支付 模式 第 三 方 支付 模式 


图 1-1 传统 支付 与 第 三 方 支付 的 区 别 


第 三 方 支付 通过 采用 二 次 结算 的 方式 ,实现 了 大 量 小 额 交易 在 第 三 方 支付 公司 的 轧 
差 后 清算 ,在 一 定 程度 上 承担 了 类 似 中 央 银 行 的 支付 清算 功能 ,同时 还 能 起 到 信用 担保 的 
作用 。 

在 移动 支付 产生 以 前 ,客户 与 第 三 方 支付 公司 建立 连接 主要 通过 计算 机 端 实现 ,移动 
支付 诞生 以 后 ,客户 与 第 三 方 支付 公司 的 联系 逐渐 向 手机 端 转移 。 

第 三 方 支付 现在 体现 的 形式 主要 就 是 移动 支付 。 

移动 支付 主要 指 通过 移动 通信 设备 、 利 用 无 线 通信 技术 来 转移 货币 价值 以 清偿 债权 
债务 关系 。 近 年 来 我 国 移动 支付 发 展 迅速 ,移动 支付 的 形式 更 加 多 样 化 ,出 现 了 短信 支 
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付 .NFC 近 场 支付 .语音 支付 二 维 码 扫描 支付 .手机 银行 支付 、 刷 脸 支 付 等 多 种 支付 
方式 。 

我 国 的 移动 支付 模式 ,如 果 是 由 银行 推出 , 则 需要 开通 手机 银行 ,同时 为 了 配合 近 场 
支付 ,可 能 还 需要 手机 具有 NFC 功能 。 如 果 是 三 大 运营 商 推出 的 移动 支付 ,一 般 是 通过 
在 SIM 卡 植 人 芯片 来 完成 支付 (如 手机 贴膜 卡 、 翼 支付 的 RFID-UIM 卡 等 )。 如 果 是 纯 
粹 的 第 三 方 支付 公司 推出 ,可 以 不 用 开通 手机 银行 ,就 可 直接 进行 支付 ,如 支付 宝 的 “ 碰 碰 
刷 ”、 微 信 支 付 等 ,其 特点 是 方便 快捷 ,最 大 限度 地 满足 客户 对 速度 的 要 求 。 但 第 三 方 支付 
公司 推出 的 移动 支付 ,安全 性 不 及 手机 银行 ,多 数 情况 由 保险 公司 来 进行 承保 。 

这 样 一 来 ,我 们 对 互联 网 金融 就 有 了 一 个 很 贴切 的 理解 。 任 何 时 候 我 们 都 可 以 很 好 
地 向 他 人 去 解释 什么 是 互联 网 金融 了 。 而 且 还 可 以 进一步 谈 谈 第 三 方 支付 ,传统 支付 和 
移动 支付 。 

这 里 我 们 重点 讲 了 互联 网 金融 ,而 且 强调 了 互联 网 金融 的 关键 词 : 支付 。 

科技 和 金融 的 组 合 也 可 以 同样 处 理 。 

我 们 以 蚂蚁 金 服 为 例 , 它 之 所 以 将 自己 定义 为 一 个 金融 科技 公司 ,主要 是 因为 它 是 利 
用 萌生 于 金融 本 身 的 大 数据 、 区 块 链 来 对 金融 本 身 进行 改造 ,从 而 产生 一 种 已 经 发 生 本 质 
改变 的 事物 ,这 种 事物 与 传统 金融 有 实质 性 的 区 别 。 

几 年 以 前 ,科技 和 金融 可 能 只 是 一 种 简单 的 组 合 关系 ,两 者 之 间 并 未 发 生 深度 融合 。 
而 随 着 移动 互联 网 的 发 展 , 金 融和 科技 发 生 了 深度 的 融合 。 

借助 科技 ,日 常生 活 中 越 来 越 多 的 场景 正在 “金融 化 ”, 而 借助 金融 与 互联 网 ,科技 企 
业 的 发 展 也 更 为 迅速 ; 随 着 越 来 越 多 的 金融 服务 场景 通过 科技 更 便捷 地 呈现 出 来 ,更 多 的 
互联 网 金融 企业 也 越 往 “ 金 融 科 技 ” 的 战略 方向 发 展 。 


1.3 金融 科技 概念 


1. 金融 科技 的 核心 

金融 科技 (fintech) 已 经 成 为 金融 行业 最 时 夏 的 话题 。“fintech” 到 底 是 什么 ,又 为 何 
在 中 国 火 了 ? 

同样 的 ,假设 二 娃 问 你 ,金融 科技 到 底 是 什么 ,怎么 回答 好 呢 ? 你 可 以 回答 ,金融 科技 
就 是 科技 在 金融 中 的 应 用 ;或 者 你 回答 : 用 科技 的 手段 改造 金融 行业 。 

其 实 你 会 发 现 , 我 更 强调 的 是 一 种 回应 的 技术 ,毕竟 沟通 很 重要 ,包装 也 很 重要 ,这 样 
回答 如 果 你 觉得 还 不 过 瘾 ,你 还 可 以 引用 维基 百科 的 定义 : 它 是 由 一 群 通过 科技 ,让 金融 
服务 更 高 效 的 企业 构成 的 一 个 经 济 产业 。fintech 公司 通常 是 那些 尝试 绕 过 现存 金融 体 
系 ,而 直接 触 达 用 户 的 初创 企业 ,它们 挑战 着 那些 较 少 依赖 于 软件 的 传统 机 构 。 

金融 科技 的 核心 是 什么 呢 ? 或 者 要 解决 的 问题 最 明显 的 特征 是 什么 呢 ? 

答案 是 信息 和 信用 成 本 。 

金融 作为 一 个 现代 庞大 的 支柱 产业 ,其 实 是 指 金融 服务 业 ,也 就 是 帮助 资金 融通 的 服 
务 行业 。 这 个 行业 从 业 人 员 所 做 的 事情 和 所 创造 的 价值 ,主要 就 是 让 资金 从 相对 闲置 、 低 
效率 的 人 或 机 构 手中 ,流动 到 可 以 更 高 效率 使 用 、 产 生 更 大 价值 的 地 方 。 你 每 个 月 领 工 


资 , 有 一 部 分 暂时 花 不 完 , 借 给 急需 用 钱 投资 或 消费 的 人 ,就 是 创造 了 价值 。 
庞大 的 金融 服务 业 , 所 做 的 事情 其 实 都 是 在 做 “信息 处理。 

套用 一 句 广告 词 : 我 们 不 生产 信息 , 我 们 只 是 信息 的 搬运 工 。 

金融 业 整 个 工作 的 对 象 就 是 信息 , 它 的 产品 就 是 信息 。 

如 今 ,互联 网 时 代 成 长 起 来 的 我 们 ,每 天 都 习惯 了 使 用 支付 宝 、 微 信 支 付 和 各 种 电子 
货币 、 代 币 , 这 些 都 可 以 理解 成 信息”。 

当然 ,最 早 的 资金 可 不 是 信息 形态 ,而 是 石头 贝 过 、 真 金 白银 等 实物 形态 。 

金融 业 的 萌发 ,可 以 说 後 始 于 对 真 金 白银 等 实物 资金 形态 的 “信息 化 ”。 最 早 帮 助 存 
储 金 银 的 金 匠 铺 , 开 始 用 纸张 等 材质 记录 的 票据 代替 金 银 给 付 物 主 ,之 后 用 来 流通 的 时 
候 ,其 实 就 是 一 个 “信息 化 ”的 过 程 。 

当然 , 当 纸 币 这 种 现金 形态 已 经 大 范围 转换 为 比特 的 电子 、 数 字 货 币 形 态 后 ,大 家 更 
容易 理解 这 个 信息 化 过 程 。 这 个 对 资金 形态 的 信息 化 过 程 , 极 大 地 降低 了 人 们 日 常 的 生 
活 和 商业 交易 成 本 ,扩大 了 市 场 交 易 的 规模 ,深化 了 人 们 劳动 角色 的 分 工 , 从 而 也 进一步 
促进 了 科技 的 进步 ,人 类 生产 力 的 发 展 和 财富 的 积累 。 

这 是 金融 服务 业 对 推动 社会 进步 的 巨大 贡献 。 但 是 ,在 这 个 过 程 中 ,金融 业 的 发 展 ， 
需要 持续 解决 本 身 带 来 的 两 大 问题 : 信息 成 本 和 信用 成 本 。 

说 到 信息 ,就 要 说 到 信息 的 收集 、 传 递 /交互 .存储 和 处 理 等 功能 。 信 息 的 收集 ,传递 / 
交互 ,存储 和 处 理 , 都 需要 消耗 成 本 ,而 且 这 个 成 本 往往 还 是 巨大 的 。 伴 随 着 资金 的 “信息 
化 "过程 , 又 带 来 一 个 新 的 问题 : 信息 的 真实 性 。 

把 我 存 的 黄金 用 一 张 纸 作为 证 明代 替 ,你 会 不 会 把 黄金 拿 去 挥霍 掉 了 ,等 我 要 用 的 时 
候 , 两 手 空空 ? 

这 个 就 是 “信用 ”问题 。 信 息 化 后 ,要 取得 信任 、 达 成 交易 ,还 需要 付出 “信用 成 本 ”。 
你 看 到 的 那些 豪华 气派 的 银行 高 楼 大 厦 , 就 是 一 种 很 直观 的 信用 成 本 。 为 什么 那么 多 线 
下 理财 公司 都 喜欢 将 办 公 室 租 在 市 中 心 高 级 写字 楼 的 高 层 ? 因为 这 些 都 是 “信用 成 本 ”。 

金融 业 的 发 展 过 程 ,可 以 简单 地 理解 为 ,就 是 一 个 不 断 降 低 金 融 信息 成 本 和 信用 成 本 
的 过 程 。 降 低 金融 信息 和 信用 成 本 , 靠 的 就 是 人 类 的 持续 创新 。 

由 此 可 见 ,金融 科技 本 身 不 是 什么 新 事物 。 人 类 历史 上 已 经 出 现 了 无 数 的 金融 科技 : 
当 把 纸张 .印刷 技术 用 于 纸 钞 印刷 时 ,这 是 金融 科技 ; 当 你 不 需要 背 着 很 重 的 黄金 白银 行 
走 江 湖 或 出 差 ,通过 银行 汇款 就 可 以 到 处 做 生意 时 ,这 是 金融 科技 ; 当 你 不 用 出 门 、 只 要 一 
部 手机 就 可 以 炒 黄金 、 买 美元 、 身 着 理财 赚钱 时 ,这 也 是 金融 科技 。 

金融 科技 之 所 以 现在 大 热 ,是 因为 最 近 几 十 年 最 热 的 科技 是 信息 科技 ,而 金融 服务 本 
质 上 是 信息 服务 ,金融 与 科技 天 生 具 有 巨大 的 相互 吸引 力 。 当 信息 技术 和 金融 服务 ,这 两 
个 最 近 几 十 年 来 发 展 最 快 的 行业 发 展 到 特定 时 段 时 , 抛 点 就 出 现 了 。 

或 许 有 一 定 的 企业 换 马 甲 避 险 ,资本 推 高 估 值 和 媒体 借 势 炒作 的 成 分 ,但 是 ,金融 科 
技 的 确 迎 来 了 发 展 的 黄金 时 代 。 

明白 了 上 面 的 内 在 逻辑 ,你 就 很 容易 理解 那些 名 目 繁多 的 fintech 概念 是 怎么 回 事 
了 : 移动 互联 网 \ 物 联网 降低 了 金融 信息 收集 和 传递 的 成 本 ;大 数据 和 云 计算 提升 了 信息 
处 理 的 效率 ;智能 投 顾 节省 了 你 去 学 习 、 分 析 和 判断 大 量 金融 信息 的 时 间 和 知识 成 本 ;区 
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块 链 技术 应 用 可 通过 取消 传统 中 心 化 的 信任 中 介 ,大 幅 降低 信用 成 本 ;人 脸 识别 等 生物 识 
别 技术 ,可 通过 刷 脸 验证 身份 ,实现 远程 开户 和 操作 ,降低 了 庞大 的 信用 成 本 、 时 间 成 本 、 
金融 机 构 大 量 营业 机 构 和 人 员 的 运营 成 本 。 

循 着 这 个 降低 金融 信息 和 信用 成 本 ,提高 金融 服务 效率 的 内 在 逻辑 ,你 甚至 能 够 预测 
到 ,未 来 有 哪些 信息 技术 会 应 用 到 金融 领域 ,成 为 新 的 “金融 科技 ”一 一 比如 ,VR 和 AR 
技术 成 熟 后 ,将 来 通过 虚拟 现实 和 可 视 化 操作 ,可 降低 信息 的 交互 成 本 ,提升 交互 体验 ,并 
且 可 以 取代 大 量 金融 机 构 的 前 端 服 务 人 员 的 人 工 成 本 。 

总 而 言 之 ,金融 服务 业 就 是 在 自身 利益 的 驱动 下 ,通过 最 新 的 信息 技术 ,搭建 起 金融 
信息 的 流动 渠道 ,不 断 降低 资金 流动 的 成 本 、 扩 大 资金 触 达 的 范围 。 所 以 ,互联 网 金融 也 
好 ,金融 科技 也 好 ,无 非 是 利用 最 新 的 互联 网 等 信息 技术 ,做 本 质 上 跟 传 统 金融 机 构 同 样 
的 事情 。 

而 在 这 个 过 程 中 ,对 于 我 们 普通 消费 者 来 说 ,由 于 金融 服务 带 来 的 成 本 ,在 我 们 的 日 
常 支出 中 占据 了 很 大 一 块 份额 ,金融 科技 创新 降低 了 我 们 需要 支出 的 成 本 ,也 就 意味 着 ， 
我 们 的 收入 和 财富 可 以 用 在 更 多 的 消费 上 , 即 意味 着 我 们 的 财富 增长 了 。 

2. 科技 金融 的 核心 

科技 金融 的 百度 定义 为 科技 金融 属于 产业 金融 的 范畴 ,主要 是 指 科技 产业 与 金融 产 
业 的 融合 。 科 技 金融 的 主题 是 金融 ,其 实 就 是 科技 应 用 在 金融 中 ,金融 本 质 也 是 一 种 服 
务 ,可 以 说 是 当前 很 重要 的 功能 ,最 重要 的 体现 就 是 效率 和 品质 。 

以 往 , 银 行 是 “二 八 ” 法 则 的 最 忠实 拥 古 ,他 们 坚信 20% 的 客户 能 创造 80% 的 利润 , 因 
此 经 营 重心 大 多 放 在 中 高 端 客户 吸 储 、 理 财 与 向 企业 大 客户 放贷 上 ,希望 借 此 来 降低 经 营 
成 本 ,提升 经 营 收益 。 银 行 对 于 中 小 微 企业 、 个 人 贷款 以 及 普通 客户 的 业务 往往 不 够 重 
视 。 因 为 对 于 银行 来 说 ,这 些小 客户 就 是 “长 尾 ”, 投 入 过 多 的 人 手 和 精力 去 处 理 “ 长 尾 ” 客 
户 的 业务 ,只 会 增加 银行 的 成 本 。 最 近 几 年 ,这 一 部 分 客户 被 互联 网 金融 所 吸纳 ,余额 宝 
就 是 一 个 很 好 的 例子 。 这 是 第 一 款 意识 到 了 “长 尾 ” 客 户 价 值 的 产品 ,单个 用 户 的 购买 量 
昌 小 ,但 庞大 基数 成 就 了 余额 宝 的 奇迹 ,让 与 之 合作 的 天 弘 基金 在 不 到 一 年 的 时 间 里 “ 山 
鸡 变 风 凰 ”。 人 金融 业 * 长 尾 " 市 场 表现 为 高 度 碎片 化 ,用 户 数量 庞大 且 个 体 资金 量 小 ,但 通 
过 技术 手段 进行 整合 和 汇集 ,无 疑 将 产生 巨大 价值 。 当 这 部 分 “长 尾 ” 用 户 的 客户 端 使 用 
条 性 增加 时 ,银行 自然 可 以 通过 网 络 来 进行 推广 和 营销 。 

我 们 可 以 从 以 下 三 方面 来 看 。 

(1) 供应 链 金融 和 消费 金融 。 比 如 大 家 熟悉 的 马云 做 的 事 其 实 就 是 解决 了 金融 服务 
对 象 的 “长 尾 ? 现 象 ,就 是 说 在 中 国 ,很 多 科技 公司 做 的 事情 就 是 做 了 一 个 中 间 的 技术 平 
台 , 上 端 去 连接 这 种 小 了 或 者 是 C 端 , 它 通过 一 些 场景 ,比如 一 些 核心 企业 一些 渠 道 , 把 
这 些 场景 全 部 连接 起 来 ,然后 通过 自 建 的 技术 系统 把 这 些 分 散 的 资产 集合 起 来 ,迅速 地 转 
化 成 为 标准 化 的 金融 机 构 能 够 认可 的 资产 , 当 资产 聚集 到 一 定量 之 后 ,就 可 以 对 接 资 金 端 
及 金融 机 构 。 

(2) 科技 金融 对 社会 的 价值 ,表现 在 金融 消费 服务 升级 上 。 其 实在 金融 消费 里 面 无 
非 是 提高 你 的 需求 匹配 效率 ,就 是 高 精度 的 匹配 ,可 以 节省 你 的 时 间 ,比如 不 需要 到 银行 
去 排队 了 。 


(3) 更 好 的 、 更 高 品质 的 金融 服务 ,现在 都 流行 说 “把 时 间 花 在 美好 的 事物 上 ”, 比 如 ， 
智能 投 顾 就 是 一 个 专业 的 \ 高 品质 的 金融 服务 。 金 融 服务 的 本 质 ,一 个 是 提高 效率 , 另 一 
个 是 提高 品质 ,这 两 个 都 是 技术 所 擅长 的 。 


1.4 金融 科技 与 互联 网 金融 的 关系 


现在 有 两 种 极端 的 误区 : 一 是 认为 “金融 科技 ”基本 等 同 于 “互联 网 金融 ”, 原 因 前 面 
已 经 说 明 , 两 者 侧重 点 有 所 不 同 ; 二 是 “互联 网 金融 ”与 “金融 科技 ” 泾 渭 分 明 。 

互联 网 金融 与 金融 科技 的 区 别 到 底 在 哪儿 ? 我 们 应 该 轻松 地 讲解 两 者 之 间 的 关系 。 

互联 网 金融 是 将 传统 金融 机 构 的 产品 、 购 买方 式 从 线 下 搬 到 了 线 上 ,从 本 质 上 来 看 ， 
在 互联 网 金融 条 件 下 ,金融 机 构 优 化 了 用 户 的 产品 体验 、 购 买 渠道 ,消费 方式 ,对 于 金融 本 
身 来 讲 并 未 产生 实质 性 的 变化 。 

互联 网 金融 对 行业 的 影响 有 限 ,金融 科技 却 不 同 。 当 下 互联 网 金融 之 所 以 会 出 现 诸 
如 此 类 的 问题 ,其 中 一 个 很 大 原因 就 是 互联 网 对 于 传统 金融 行业 的 改造 并 不 彻底 ,甚至 可 
以 说 并 没有 对 金融 行业 产生 实质 性 的 影响 。 这 就 导致 了 很 多 传统 金融 已 经 出 现 的 ,如 信 
息 不 透明 ,收益 难保 障 ,监管 难 实现 等 问题 ,在 互联 网 金融 时 代 依 然 会 出 现 。 

写 到 这 里 ,读者 可 能 知道 怎么 给 对 方 去 讲解 了 ,我 们 可 以 说 互联 网 金融 注重 的 是 形式 
的 体验 ,金融 科技 强调 的 是 内 容 的 变革 。 其 实 , 知 识 本 无 所 谓 的 多 少 , 也 本 无 所 谓 的 专家 ， 
需要 的 是 我 们 更 好 地 在 沟通 中 去 切 分 嗣 了 。 毕 况 , 不 是 我 们 每 个 人 都 要 去 做 学 术 ,都 要 去 
做 更 深入 的 调研 和 发 表 论文 。 

当然 ,我们 还 可 以 换 一 种 说 法 。 

互联 网 金融 是 一 种 商业 模式 ,金融 科技 是 一 种 金融 产品 。 

如 果 将 互联 网 金融 看 作 是 一 种 全 新 的 商业 模式 的 话 , 那 么 金融 科技 则 是 一 种 全 新 的 
金融 产品 。 

比如 ,我 们 不 难 发 现 ,很 多 互联 网 金融 企业 都 是 将 传统 金融 行业 的 一 些 业 务 转移 到 了 
线 上 ,传统 模式 中 需要 到 金融 机 构 柜 台 办 理 的 相关 业务 ,现在 动 动手 指 即 可 实现 。 

金融 科技 则 不 一 样 , 它 是 基于 金融 本 身 萌 发 出 的 一 种 全 新 的 产品 。 这 种 产品 主要 是 
利用 大 数据 ` 区 块 链 等 互联 网 创新 技术 进行 风险 管理 与 控制 ,降低 成 本 ,提升 效率 ,并 从 金 
融 本 身 作出 改变 ,从 而 再 借助 互联 网 的 力量 给 用 户 全 新 的 体验 。 

读者 理解 了 这 样 的 方法 论 , 应 该 知道 怎么 去 更 快 地 学 习 新 的 知识 以 及 切 分 知识 了 。 

那么 还 可 以 说 互联 网 金融 是 发 展 阶段 ,金融 科技 是 最 终 目 的 。 

互联 网 金融 只 是 将 传统 金融 机 构 获 取 用 户 的 方式 转移 到 了 线 上 , 它 主要 借助 的 是 当 
下 互联 网 的 流量 红利 ,以 破解 或 遏制 当下 传统 金融 机 构 用 户 不 断 减少 的 问题 。 金 融 机 构 
借助 互联 网 获得 了 线 下 流失 的 部 分 流量 ,并 通过 将 传统 产品 转移 到 线 上 销售 ,让 更 多 的 用 
户 能 够 通过 手机 就 能 够 买 到 自己 所 需 的 产品 。 

互联 网 金融 除了 能 够 让 用 户 获得 轻松 便捷 的 产品 体验 之 外 ,还 能 让 传统 金融 机 构 的 
门槛 最 大 限度 的 降低 ,传统 金融 机 构 当 中 需要 严格 审核 才能 参与 其 中 的 投资 项 目 , 现 在 只 
要 通过 互联 网 便 能 够 轻松 参与 。 而 互联 网 的 用 户 又 趋向 于 年 轻 化 ,这 些 年 轻 用 户 通常 是 
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被 传统 金融 机 构 淘 汰 掉 的 用 户 , 通 过 互联 网 金融 无 疑 能 够 将 这 些 用 户 收入 窜 中 ,并 最 终 获 
得 更 多 用 户 。 再 加 上 互联 网 金融 的 体验 较 好 , 则 更 容易 获得 这 些 用 户 的 青睐 。 以 苏宁 众 
筹 、. 聚 米 众 筹 . 京 东 众 筹 为 代表 的 众 筹 行业 飞快 的 发 展 速度 同样 说 明了 这 一 点 。 

无 论 是 体验 还 是 用 户 ,互联 网 金融 作出 的 改变 仅仅 是 从 用 户 端 进行 的 ,而 即便 是 互联 
网 金融 对 传统 的 金融 产品 进行 了 简单 的 拆 分 和 组 合 ,但 是 这 些 拆 分 和 组 合 稍 显 机 械 和 简 
单 ,而且 并 没有 改变 金融 产品 的 本 质 。 我 们 仅仅 能 够 将 互联 网 金融 看 作 是 互联 网 条 件 下 
的 金融 ,金融 的 本 质 并 没有 发 生 太 大 改变 , 它 依然 面临 着 诸多 问题 和 弊端 。 互 联网 对 于 金 
融 行 业 的 影响 依然 停留 在 表面 上 ,如 果 我 们 将 互联 网 金融 看 作 是 一 种 金融 类 型 的 话 , 那 
么 , 它 充 其 量 只 能 算 作 是 金融 发 展 的 一 个 阶段 ,并 不 能 被 看 作 是 金融 发 展 的 终极 阶段 。 

总 结 : 

大 家 会 发 现 我 们 介绍 了 互联 网 金融 、 科 技 金融 以 及 金融 科技 ,不 是 着 眼 于 研究 的 深 
入 ,而 是 从 沟通 ,实用 的 角度 去 看 待 这 些 信息 或 者 知识 。 毕 竞 ,对 于 大 部 分 人 来 讲 , 面 对 的 
还 是 沟通 ,怎么 更 好 地 和 对 方 沟通 以 及 传播 这 些 知 识 。 

互联 网 金融 我 们 强调 了 支付 ,通过 支付 让 互联 网 更 好 地 服务 于 金融 ,让 金融 更 好 地 发 
挥 它 的 服务 功能 。 

科技 金融 的 关键 词 是 : 效率 和 品质 。 让 科技 服务 于 金融 ,让 金融 服务 在 效率 和 品质 
方面 产生 更 好 的 服务 。 

金融 科技 的 关键 词 是 : 信息 和 信用 成 本 。 科 技 应 用 在 金融 中 ,创新 了 金融 提供 服务 
的 形式 ,解决 了 金融 服务 中 的 信息 成 本 和 信用 成 本 方面 的 问题 。 

金融 科技 和 科技 金融 可 以 看 作 是 内 容 和 形式 的 关系 ,金融 是 内 容 , 科 技 是 形式 。 


大 数 据 


2.1 大 数据 的 定义 


如 果 有 人 问 你 到 底 什么 是 大 数据 ,可 能 你 也 不 一 定 很 容易 解释 清楚 吧 ,我 的 意思 是 至 
少 让 对 方 觉得 你 很 专业 。 至 少 我 们 不 能 说 就 是 大 的 数据 ,或 者 说 我 用 Excel 操作 了 几 十 
万 的 数据 ,也 觉得 是 做 的 大 数据 。 

这 里 我 们 仍然 可 以 从 分 类 的 思想 进行 解释 。 

我 们 面 对 这 个 纷繁 复杂 ,充满 竞争 的 世界 ,需要 一 种 收 智商 税 的 能 力 , 那 就 是 分 类 的 
能 力 。 

想 想 中 国 古代 ,周易 是 一 个 很 先进 的 分 类 方法 ,把 这 个 客观 世界 进行 了 64 种 分 类 。 
《 易 传 。 系 辞 上 传 》:“ 易 有 太极 ,是 生 两 仪 ,两 仪 生 四 象 ,四 象 生 八卦 .我 们 可 以 看 作 是 古 
人 把 信息 做 了 一 个 分 类 ,初步 分 成 了 8 种 。 

关于 一 叶 障 目 和 一 叶 知 秋 。" 一 叶 障 目 " 相 当 于 是 用 小 样本 分 析 近 似 推理 ,而 真理 可 
能 存在 于 全 样本 的 海量 数据 之 中 ,借助 大 数据 则 可 完全 克服 .“ 一 叶 知 秋 ” 其 实 就 是 反 过 
来 说 的 ,小 样本 可 以 预测 大 数据 。 

接 下 来 谈 大 数据 ,为 什么 我 们 现在 才 谈 大 数据 呢 ? 这 要 从 两 方面 来 看 ,一 方面 是 计算 
机 技术 的 发 展 ,特别 是 存储 技术 和 计算 技术 的 发 展 ,以 前 不 能 存储 的 数据 现在 可 以 存储 
了 ,现在 的 科学 计算 技术 更 多 更 深入 了 ,运行 .计算 速度 越 来 越 快 ; 另 一 方面 是 信息 爆炸 式 
增长 。 而 这 两 方面 就 像 DNA 一 样 是 螺旋 式 增长 的 ,是 相互 促进 .相互 影响 的 。 

这 么 来 看 大 数据 就 很 清晰 了 ,为 什么 提 大 数据 ,大 数据 怎么 定义 就 很 清楚 了 。 

维基 百科 中 只 有 短 短 的 一 句 话 :“ 巨 量 资料 (big data) ,或 称 大 数据 , 指 的 是 所 涉及 的 
资料 量规 模 巨大 到 无 法 通过 目前 主流 软件 工具 ,在 合理 时 间 内 达到 皂 取 、 管 理 . 处理 并 整 
理 成 为 帮助 企业 经 营 决策 更 积极 目的 的 资讯 。” 

维基 百科 的 定义 是 从 大 数据 的 特征 入 手 的 。 

我 们 还 可 以 自己 定义 ,比如 按照 大 数据 的 功能 进行 定义 : 大 数据 是 在 多 样 的 或 者 大 
量 数据 中 ,迅速 获取 信息 的 能 力 。 


2.2 大 数据 和 统计 的 关系 


其 实 不 管 是 大 数据 还 是 数学 ,物理 或 者 统计 都 是 对 大 自然 和 社会 的 一 种 探索 而 做 的 
一 种 分 类 。 事 实 上 .没有 任何 学 科 是 独立 的 ,很 多 工作 和 研究 都 是 跨 专 业 的 。 大 数据 ,也 
是 一 个 跨 专 业 的 领域 ,主要 包括 了 计算 机 科学 、 统 计 学 、 数 学 、 语 言 学 等 。 我 们 要 把 大 数据 
和 统计 、 计 算 机 之 间 的 关系 做 个 区 别 也 是 一 种 权宜 之 计 , 大 数据 不 是 统计 ,大 数据 与 计算 
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机 有 关 。 
关于 大 数据 和 统计 的 关系 ,我 们 可 以 简单 地 做 这 样 的 一 个 比较 ,如 表 2-1 所 示 。 
表 2-1 大 数据 和 统计 的 关系 


/ 大 数据 统 计 
/ 问题 驱动 : 分 布 理论 一 概率 保证 一 总 体 推断 数据 驱动 : 实际 分 布 一 总 体 特征 一 概率 判断 
多 因果 分 析 相关 分 析 
多 样本 抽 先 总 体 描述 
数据 烟 向 数据 平台 
问卷 调查 接触 点 
数据 精准 数据 黑洞 
以 小 见 大 以 大 见 小 
归纳 推理 演绎 推理 
2.3 大 数据 的 特征 


业界 通常 用 4 个 V( 即 volume、variety、value、velocity) 来 概括 大 数据 的 特征 。 这 四 
个 特征 其 实 主要 也 是 从 大 数据 本 身 的 特点 来 进行 分 类 或 者 解释 的 。 

一 是 数据 体 量 巨大 (volume)。 截 至 目前 ,人 类 生产 的 所 有 印刷 材料 的 数据 量 都 是 
200PB(1PB 二 210TB) ,而 历史 上 全 人 类 说 过 的 所 有 的 话 的 数据 量 大 约 是 5EB(1EB= 
210PB)。 当 前 ,典型 个 人 计算 机 硬盘 的 容量 为 TB 量 级 ,而 一 些 大 企业 的 数据 量 已 经 接 
近 EB 量 级 。 

二 是 数据 类 型 繁多 (variety) 。 这 种 类 型 的 多 样 性 也 让 数据 被 分 为 结构 化 数据 和 非 结 
构 化 数据 。 相 对 于 以 往 便于 存储 的 以 文本 为 主 的 结构 化 数据 , 非 结构 化 数据 越 来 越 多 , 包 
括 网 络 日 志 、 音 频 、 视 频 , 图 片 . 地 理 位 置信 息 等 ,这 些 多 类 型 的 数据 对 数据 的 处 理 能 力 提 
出 了 更 高 的 要 求 。 

三 是 价值 密度 低 Cvalue) 。 价 值 密度 的 高 低 与 数据 总 量 的 大 小 成 反比 。 以 视频 为 例 ， 
一 部 1 小 时 的 视频 ,在 连续 不 间断 的 监控 中 ,有 用 数据 可 能 仅 有 一 两 秒 。 如 何 通过 强大 的 
机 器 算法 更 迅速 地 完成 数据 的 价值 “提纯 ”成 为 目前 大 数据 背景 下 吸 待 解决 的 难题 。 

四 是 处 理 速度 快 (velocity) 。 这 是 大 数据 区 分 于 传统 数据 挖掘 的 最 显著 特征 。 根 据 
IDC 的 “数字 宇宙 "的 报告 ,预计 到 2020 年 ,全球 数据 使 用 量 将 达到 35. 2ZB。 在 如 此 海量 
的 数据 面前 ,处 理 数据 的 效率 就 是 企业 的 生命 。 

除了 上 述 主流 的 定义 外 ,我 们 还 可 以 用 3S 或 者 3I 描述 大 数据 的 特征 。 

3S 指 的 是 : 大 小 (size) 、 速 度 (speed) 和 结构 (structure) 。 

3I 指 的 是 : 

(1) 定义 不 明确 (ill-definite) 。 多 个 主流 的 大 数据 定义 都 强调 了 数据 规模 需要 超过 
传统 方法 处 理 数据 的 规模 ,而 随 着 技术 的 进步 ,数据 分 析 的 效率 不 断 提 高 ,符合 大 数据 定 
义 的 数据 规模 也 会 相应 不 断 变 大 ,因而 并 没有 一 个 明确 的 标准 。 

(2) 令 人 生 旦 (intimidating)。 从 管理 大 数据 到 使 用 正确 的 工具 获取 它 的 价值 ,利用 


大 数据 的 过 程 中 充满 了 各 种 挑战 。 

(3) 即时 (immediate) 。 数 据 的 价值 会 随 着 时 间 快 速 衰减 ,因此 为 了 保证 大 数据 的 可 
控 性 ,需要 缩短 数据 搜集 到 获得 数据 洞察 之 间 的 时 间 , 使 得 大 数据 成 为 真正 的 即时 大 数 
据 ,这 意味 着 能 尽快 地 分 析 数 据 对 获得 竞争 优势 至 关 重 要 。 


2.4 大 数据 技术 的 架构 


在 理解 了 大 数据 的 特征 后 ,就 很 容易 简化 地 来 理解 大 数据 技术 的 核心 , 即 大 数据 的 总 
体 架 构 包 括 三 层 : 数据 存储 数据 处 理 和 数据 分 析 。 类 型 复杂 和 海量 由 数据 存储 层 解决 ， 
快速 和 时 效 性 要 求 由 数据 处 理 层 解决 ,价值 由 数据 分 析 层 解决 。 

数据 先 要 通过 存储 层 存储 下 来 ,然后 根据 数据 需求 和 目标 来 建立 相应 的 数据 模型 和 
数据 分 析 指标 体系 ,以 对 数据 进行 分 析 产 生 价值 ,而 中 间 的 时 效 性 又 通过 中 间 数 据 处 理 层 
提供 的 强大 的 并 行 计算 和 分 布 式 计算 能 力 来 完成 。 三 层 相互 配合 ,让 大 数据 最 终 产 生 
价值 。 

1. 数据 存储 层 

数据 有 很 多 分 法 ,有 结构 化 、 半 结构 化 和 非 结 构 化 ;也 有 元 数据 、 主 数据 和 业务 数据 ; 
还 可 以 分 为 GIS ,视频 文件 .语音 ,业务 交易 类 各 种 数据 。 传 统 的 结构 化 数据 库 已 经 无 法 
满足 数据 多 样 性 的 存储 要 求 ,因此 在 RDBMS 基础 上 增加 了 两 种 类 型 : 一 种 是 HDFS 可 
以 直接 应 用 于 非 结 构 化 文件 存储 ;一 种 是 NoSQL 类 数据 库 , 可 以 应 用 于 结构 化 和 半 结 构 
化 数据 存储 。 

从 存储 层 的 搭建 来 说 ,关系 型 数据 库 ,NoSQL 数据 库 和 HDFS 分 布 式 文件 系统 三 种 
存储 方式 都 需要 。 业 务 应 用 根据 实际 的 情况 选择 不 同 的 存储 模式 ,但 是 为 了 业务 的 存储 
和 读 取 方便 性 ,我 们 可 以 对 存储 层 进一步 地 封装 ,形成 一 个 统一 的 共享 存储 服务 层 , 简 化 
这 种 操作 。 从 用 户 来 讲 并 不 关心 底层 存储 细节 ,只 关心 数据 的 存储 和 读 取 的 方便 性 ,通过 
共享 数据 存储 层 可 以 实现 在 存储 上 的 应 用 和 存储 基础 设置 的 彻底 解 耦 。 

2. 数据 处 理 层 

数据 处 理 层 核 心 解决 问题 在 于 数据 存储 出 现 分 布 式 后 带 来 的 数据 处 理 上 的 复杂 度 ， 
海量 存储 后 带 来 了 数据 处 理 上 的 时 效 性 要 求 , 这 些 都 是 数据 处 理 层 要 解决 的 问题 。 

在 传统 的 云 相关 技术 架构 上 ,可 以 将 Hive,Pig 和 Hadoop-MapReduce 框架 相关 的 
技术 内 容 全 部 划 入 到 数据 处 理 层 的 能 力 上 。 原 来 思考 的 是 将 Hive 划 入 到 数据 分 析 层 能 
力 上 不 合适 ,因为 Hive 重点 还 是 在 真正 处 理 下 的 复杂 查询 的 拆 分 及 查询 结果 的 重新 聚 
合 上 ,而 MapReduce 本 身 又 实现 真正 的 分 布 式 处 理 能 力 。 

MapReduce 只 是 实现 了 一 个 分 布 式 计 算 的 框架 和 逻辑 ,而 真正 的 分 析 需 求 的 拆 分 ， 
分 析 结 果 的 汇总 和 合并 还 是 需要 Hive 层 的 能 力 整合 。 最 终 的 目的 很 简单 , 即 支持 分 布 
式 架构 下 的 时 效 性 要 求 。 

3. 数据 分 析 层 

最 后 回 到 数据 分 析 层 ,分 析 层 重点 是 真正 挖掘 大 数据 的 价值 所 在 ,而 价值 的 挖掘 核心 
又 在 于 数据 分 析 和 挖掘 。 那 么 数据 分 析 层 核心 仍然 在 于 传统 的 BI 分 析 的 内 容 , 其 包括 数 
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据 的 维度 分 析 、 数 据 的 切片 数据 的 上 钴 和 下 钻 \Cube 等 。 

谈 了 这 么 多 ,核心 还 是 想 说 明 大 数据 两 大 核心 为 云 技 术 和 BI, 离 开 云 技术 ,大 数据 就 
没有 根基 和 落地 的 可 能 ;离开 BI 和 价值 ,大 数据 又 变 为 舍 本 逐 末 ,丢弃 关键 目标 。 简 单 总 
结 ; 大 数据 目标 驱动 是 BI, 大 数据 实施 落地 是 云 技术 。 

大 数据 的 本 质 就 是 利用 计算 机 集群 来 处 理 大 批量 的 数据 ,大 数据 的 技术 关注 点 在 于 
如 何 将 数据 分 发 给 不 同 的 计算 机 进行 存储 和 处 理 。 

云 计算 的 本 质 就 是 将 计算 能 力作 为 一 种 较 小 颗粒 度 的 服务 提供 给 用 户 , 按 需 使 用 和 
付费 ,体现 了 以 下 几 个 特点 。 

(1) 经 济 性 。 经 济 性 是 指 不 需要 购买 整个 服务 器 。 

(2) 快捷 性 。 快 捷 性 是 指 即刻 使 用 ,不 需要 长 时 间 的 购买 和 安装 部 署 。 

(3) 弹性 。 弹 性 是 指 随 着 业务 增长 可 以 购买 更 多 的 计算 资源 ,可 以 需要 时 购买 几 十 
台 服 务 器 的 1 个 小 时 时 间 ,运算 完成 即 可 释放 。 

(4) 自动 化 。 自 动 化 是 指 不 需要 通过 人 来 完成 资源 的 分 配 和 部 署 ,通过 API 可 以 自 
动 创建 云 主机 等 服务 。 

云 计算 的 技术 关注 点 是 如 何在 一 套 软 硬 件 环 境 中 ,为 不 同 的 用 户 提供 服务 ,使 得 不 同 
的 用 户 彼此 不 可 见 ,并 进行 资源 隔离 ,保障 每 个 用 户 的 服务 质量 。 


2.5 大 数据 产业 


数据 作为 一 个 新 兴 的 产业 ,一直 处 于 与 论 的 风口 浪 尖 。 

当前 有 人 认为 大 数据 产业 “过 热 ”, 事 实 上 ,大 数据 的 潜力 应 该 还 远 远 没 被 释放 出 来 。 
目前 从 实际 情况 来 讲 , 大 数据 产业 在 硬件 支持 方面 的 布局 如 火 如 茶 , 大 数据 中 心 也 在 纷纷 
建设 之 中 ,但 是 数据 与 数据 的 碰撞 、 数 据 价值 的 开发 .数据 价值 的 应 用 落地 等 ,仍然 处 于 初 
期 阶段 。 随 着 借助 传感器 、 可 穿戴 设备 、 智 能 感知 、 视 频 采 集 、 增 强 现实 等 技术 可 实现 实时 
的 信息 采集 和 分 析 , 这 些 数 据 能 够 支撑 智慧 城市 ,智慧 交通 \ 智 慧 能 源 、 智 慧 医疗 和 智慧 环 
保 的 理念 需要 。 大 数据 将 充分 实现 对 交通 、 医 疗 、 教 育 \ 环 保 、 农 业 等 产业 的 升级 改造 ,以 
及 大 数据 应 在 社会 生产 、 生 活 更 广 的 范围 内 得 到 普及 。 

大 数据 的 价值 体现 在 预警 预测 、 决 策 、 智 能 等 方面 。 预 警 , 即 通过 数据 采集 、 数 据 挖 
据 、 数 据 分 析 , 对 已 经 存在 的 风险 发 出 预报 与 警示 ;这 个 体现 在 气象 预测 、 地 震 预 测 以 及 各 
个 行业 的 与 情 分 析 。 预 测 ,是 指 立足 于 纵向 时 间 轴 ,对 相对 长 时 间 内 某 些 问题 的 判断 形成 
指导 ;这 个 很 多 应 用 在 金融 行业 ,比如 当前 很 热 的 量化 投资 。 决 策 , 是 指 通过 所 有 相关 数 
据 的 联动 ,形成 基于 数据 和 分 析 之 上 的 决策 或 结论 ;智能 , 即 当 我 们 基于 对 现实 问题 的 分 
析 与 判断 ,通过 技术 手段 实现 智能 化 的 行为 。 大 数据 相关 的 科技 公司 解决 的 问题 基本 上 
也 是 从 这 几 方 面 进行 发 挥 的 。 

当然 ,大 数据 也 面临 着 一 些 需 要 逐步 解决 的 问题 ,包括 技术 问题 ,数据 孤岛 问题 等 。 
比如 政府 部 门 存在 “不 愿 开放 、 不 敢 开 放 、 不 会 开放 ”数据 的 问题 ,如 何 开 放 共 享 仍 有 待 


2.6 大 数据 人 才 


传统 的 数据 挖掘 工具 和 BI 系 统 已 经 存在 很 久 了 ,通过 各 类 报表 展示 ,让 管理 层 了 解 
企业 运营 信息 ,过 去 的 确 帮助 企业 提高 过 管理 水 平 ,达到 了 预期 目的 。 

在 大 数据 时 代 , 企 业 需 要 的 是 实时 数据 ,需要 的 是 高 效 工具 ,需要 的 是 决策 支持 和 预 
测 。 传 统 的 数据 挖掘 工具 的 性 能 和 灵活 性 已 经 不 能 满足 企业 的 需要 ,另外 非 机 构 化 数据 
的 应 用 也 对 传统 数据 工具 提出 了 挑战 。BI 领域 中 的 SAS、SPSS、TD 等 数据 工具 越 来 越 
被 边缘 化 ,R 和 Python 语言 正在 成 为 数据 统计 和 可 视 化 的 新 宠 。 

数据 的 时 间 价 值 正在 得 到 重视 ,特别 是 金融 企业 ,所 有 的 业务 部 门 都 期 望 在 最 短 的 时 
间 里 ,看 到 资金 使 用 情况 ,客户 交易 情况 以 及 风险 管控 情况 。 企 业 越 早 了 解 信息 ,就 会 越 
早 进行 决策 ,时 间 就 是 金钱 。 过 去 数据 需求 可 能 是 (T 十 5) 或 者 (T 十 30) ,现在 的 数据 需求 
往往 是 (T 十 1) 或 者 (T 十 0) ,数据 实时 性 \ 准 确 性 、 相 关 度 被 提 到 了 一 个 非常 重要 的 地 位 。 
业务 的 需求 已 经 很 明显 了 ,但 是 数据 工具 和 人 才 却 是 一 个 很 大 的 挑战 。 

中 国 200 多 家 大 数据 企业 ,看 到 了 大 数据 产业 的 曙光 ,看 到 了 大 数据 产业 的 价值 , 同 
时 也 在 经 历 着 大 数据 企业 的 痛苦 。 大 数据 产业 发 展 很 快 ,市 场 正 在 逐步 变 大 ,但 是 其 产业 
优势 不 明显 ,优势 企业 很 少 ,数据 商业 化 较 慢 ,市 场 还 不 成 熟 ,客户 数据 商业 敏感 度 较 低 ， 
缺乏 高 质量 数据 工具 和 人 才 。 所 有 大 数据 企业 内 心 的 感受 就 是 ,站 在 了 时 代 的 风口 , 选 对 
了 方向 和 行业 ,但 是 想 发 展 壮 大 还 是 很 难 。200 多 家 大 数据 企业 正在 努力 耕耘 着 大 数据 
产业 , 痛 并 快乐 着 。 

就 数学 和 统计 专业 而 言 , 目 前 绝 大 多 数 的 数据 科学 家 有 数学 和 统计 专业 背景 ,所 以 你 
选择 的 学 校 可 能 并 没有 所 谓 “ 数 据 分析 ” 这 个 专业 ,但 是 其 数学 和 统计 专业 很 可 能 有 开设 
一 系列 课程 帮助 你 培养 大 数据 分 析 的 能 力 ,甚至 还 会 建议 你 去 选修 一 些 外 系 的 编程 或 市 
场 营 销 课程 来 丰富 你 的 技能 组 合 。 

另 一 个 进入 大 数据 领域 的 方式 是 学 习 计 算 机 科学 专业 ,这 一 路 线 将 会 侧重 于 学 习 大 
数据 采集 和 分 析 的 技术 问题 。 

目前 市 面 上 许多 的 大 数据 技术 ,如 MapReduce、NoSQL 和 Hive 就 是 来 源 于 软件 工 
程 师 的 发 明 创造 。 所 以 如 果 你 对 计算 机 科学 感 兴趣 ,又 想 在 毕业 后 从 事 大 数据 相关 岗位 ， 
就 可 以 在 本 科 阶 段 侧 重 于 对 人 工 智 能 、 机 器 学 习 和 数据 理论 方面 的 学 习 。 

如 果 说 计算 机 科学 专业 的 学 生 研 究 的 是 如 何 让 大 数据 技术 变 得 更 快 更 好 ,那么 商科 
学 生 学 习 的 就 是 如 何 用 大 数据 技术 去 为 企业 赢得 利润 ,因此 更 关注 的 是 如 何 把 大 数据 技 
术 与 市 场 营 销 、 产 品 定 位 和 购买 模式 等 结合 起 来 。 

与 此 同时 , 越 来 越 多 的 商学 院 开始 开设 专攻 商业 数据 分 析 的 本 科 和 研究 生 项 目 , 尽 管 
不 像 计 算 机 科学 专业 那样 对 于 理工 科 知 识 有 那么 高 的 要 求 , 但 是 还 会 涉及 一 定 的 数据 库 
设计 分析 和 编程 以 及 相关 统计 软件 ,如 Python 的 使 用 。 
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人 工 智能 与 机 器 学 习 


3.1 人 工 智能 


这 章 我 们 介绍 人 工 智 能 与 机 器 学 习 。 毕 竞 这 两 个 词 太 火 了 ,我 们 一 样 是 要 和 弄 清楚 它 
们 的 定义 、 之 间 的 区 别 以 及 怎么 通过 去 解释 人 工 智 能 提升 自己 的 价值 。 同 时 ,还 要 介绍 今 
后 我 们 可 能 常会 用 到 的 一 些 方法 ,比如 神经 网 络 、 贝 叶 斯 ,马尔 可 夫 、 自 然 语言 处 理 等 。 

我 们 可 以 简单 地 回答 说 人 工 智能 最 直接 的 解释 就 是 不 是 人 的 智能 ,但 能 像 人 那样 思 
考 ,也 可 能 超过 人 的 智能 。 

人 工 智能 (artificial intelligence, A 了 DD) 被 认为 是 21 世纪 三 大 尖端 技术 (人 工 智 能 .基因 
工程 纳米 科学 ) 之 一 , 近 几 年 来 飞速 发 展 ,互联 网 科技 巨头 和 无 数 中 小 创业 公司 投身 其 
中 , 越 来 越 多 基于 人 工 智能 的 应 用 开始 渐渐 走 进 我 们 的 日 常生 活 。 

先 举 几 个 生活 中 常见 的 例子 。 

导航 几乎 是 我 们 开车 出 行 的 必 备 应 用 之 一 ,以 大 数据 和 机 器 学 习 为 基础 ,是 一 种 典型 
的 地 图 人 工 智能 化 。 在 车 里 打开 导航 时 ,地 图 采集 设备 自动 识别 景物 和 道路 特征 定位 你 
所 处 的 位 置 , 提 取 建 筑 轮廓 并 绘制 形状 ,根据 道路 图 形 标牌 ,电子眼 .警示 牌 等 自动 挖掘 出 
过 期 或 新 增 的 信息 点 以 及 道路 变化 ,并 且 根 据 道路 实时 路 况 计 算 规 划 出 最 优 出 行路 径 等 。 
导航 的 整个 过 程 不 需要 人 工 参与 ,机 器 根据 算法 和 数据 智能 化 输出 结果 ,是 离 我 们 最 近 的 
人 工 智能 应 用 之 一 。 

信息 获取 是 我 们 的 基础 需求 之 一 ,百度 搜索 和 今日 头条 个 性 化 推荐 就 是 人 工 智 能 在 
信息 分 发 领域 的 实际 应 用 。 经 过 深度 学 习 的 机 器 基于 大 数据 根据 你 的 检索 关键 词 或 者 个 
人 属性 ,行为 记录 等 从 数据 库 中 自动 调 取 、 匹 配 和 呈现 信息 。 今 日 头条 甚至 已 经 有 了 人 工 
智能 写 稿 机 器 人 ,基于 自然 语言 处 理 、 视 觉 图 形 处 理 和 机 器 学 习 技术 等 ,AI 写 稿 机 器 人 能 
够 根据 网 络 热点 .评论 分 享 .用 户 喜好 进行 文字 编写 .标题 封面 图 选择 等 ,并 在 两 秒 钟 内 创 
作 一 篇 效果 不 逊 于 人 工 编辑 的 稿件 。 

AI 之 所 以 重要 ,是 因为 它 解决 了 极其 复杂 的 问题 ,而 这 些 问题 的 解决 方案 可 以 应 用 
到 对 人 类 福 社 重要 的 领域 一 一 从 健康 教育 ,到 商业 、 交 通 , 乃 至 于 公用 事业 和 娱乐 等 。 

那么 ,我 们 是 不 是 说 人 工 智 能 将 取代 人 类 或 者 就 是 灾难 呢 。 

困难 的 问题 是 简单 的 ,简单 的 问题 是 困难 的 。 

其 实 , 这 里 我 们 可 以 抛 出 一 个 哲学 一 样 的 话题 。 

2016 年 3 月 注定 也 要 载 人 人 工 智能 的 发 展 史 册 : 来 自 Google 的 人 工 智能 程序 
AlphaGo 以 总 比分 4: 1 的 成 绩 战 胜 了 前 世界 冠军 李 世 石 。 

号 称 "” 人 类 最 后 智力 骄傲 "的 围棋 也 被 人 工 智 能 攻破 了 ,一 时 间 人 工 智 能 与 机 器 人 威 
胁 论 刷 爆 了 微 博 、 微 信 及 各 路 新 闻 媒体 。 大 家 都 在 担心 着 某 一 天 自己 的 工作 会 被 人 工 智 


能 抢 去 ,又 在 某 一 天 人 类 会 被 人 工 智能 机 器 人 统治 。 那 场 比赛 中 有 一 个 细节 ,不 知 大 家 是 
否 注意 ; 这 个 已 经 在 “人 类 最 后 智力 骄傲 ”上 不 压 人 类 的 AlphaGo, 却 连 挪动 一 枚 小 小 的 
棋子 都 需要 人 类 帮助 才能 完成 。 

可 能 有 人 会 说 ,这 都 不 算 事 儿 ,围棋 都 已 经 战胜 人 类 了 ,给 AlphaGo 装 上 机 械 手 让 它 
自己 下 棋 也 不 过 是 分 分 钟 的 事 儿 。 然 而 ,事实 真 的 是 这 么 简单 吗 ? 

让 计算 机 在 智力 测试 或 者 下 棋 中 展现 出 一 个 成 年 人 的 水 平 是 相对 容易 的 ,但 是 要 让 
计算 机 有 如 一 岁 小 孩 般 的 感知 和 行动 能 力 却 是 相当 困难 甚至 是 不 可 能 的 。 这 便 是 在 人 工 
智能 和 机 器 人 领域 里 著名 的 莫 拉 维 克 悖 论 。 

莫 拉 维 克 悖 论 指出 : 和 传统 假设 不 同 ,对 计算 机 而 言 ,实现 逻辑 推理 等 人 类 高 级 智慧 
只 需要 相对 很 少 的 计算 能 力 , 而 实现 感知 .运动 等 低 等 级 智慧 却 需要 巨大 的 计算 资源 。 

这 个 很 类 似 于 数学 发 展 中 的 理论 ,我 们 要 证 明 最 前 沿 的 各 种 定理 可 能 不 难 , 但 是 要 证 
明 最 简单 的 1 十 1=2 可 能 却 是 最 难 的 。 

四 岁 小 孩 具 有 的 本 能 一 一 辨识 人 脸 , 举 起 铅笔 、 在 房间 内 走动 .回答 问题 等 ,事实 上 却 
是 工程 领域 内 目前 为 止 最 难 解 的 问题 。 随 着 新 一 代 智 慧 设备 的 出 现 , 股 票 分 析 师 、 石 化 工 
程 师 和 假释 委员 会 都 要 小 心 他 们 的 位 置 被 取代 ,但 是 园丁 、 接 待 员 和 厨师 至 少 10 年 内 都 
不 用 有 这 种 担心 或 者 不 需要 担心 。 


3.2 机 器 学 习 


我 们 怎样 去 解释 人 工 智能 和 机 器 学 习 的 关系 呢 ? 

人 工 智能 的 根本 在 于 智能 一 一 如 何 为 机 器 赋予 智能 。 而 机 器 学 习 强调 的 是 学 习 , 或 
者 说 算法 ,是 部 署 支持 人 工 智能 的 计算 方法 。 或 者 说 人 工 智 能 是 科学 ,机 器 学 习 是 让 机 器 
变 得 更 加 智能 的 算法 。 

还 记得 我 们 强调 的 内 容 和 形式 的 关系 吗 ? 我 们 可 以 说 机 器 学 习 和 人 工 智能 是 内 容 和 
形式 的 关系 ,或 者 说 机 器 学 习 成 就 了 人 工 智能 。 

机 器 学 习 是 从 大 量 的 数据 中 发 现 规律 ,提取 知识 ,并 在 实践 中 不 断 地 完善 和 增强 自 
我 。 机 器 学 习 是 机 器 获取 知识 的 根本 途径 ,只 有 让 计算 机 系统 具有 类 似 人 的 学 习 能 力 , 才 
可 能 实现 人 工 智 能 的 终极 目标 。 可 以 这 么 说 ,机 器 学 习 是 人 工 智 能 研究 的 核心 问题 之 一 ， 
也 是 当前 人 工 智 能 研究 的 一 个 热门 方向 ,同时 也 是 人 工 智 能 理论 研究 和 实际 应 用 的 主要 
瓶颈 之 一 。 

机 器 学 习 算 法 我 们 可 以 整体 分 为 两 类 ,不 是 按照 有 监督 学 习 和 无 监督 学 习 进行 分 类 ， 
而 是 按照 容易 方法 论 的 角度 进行 分 类 的 。 

一 种 是 线性 化 思维 。 体 现在 线性 和 非 线性 思维 的 转化 中 ,比如 线性 回归 是 把 非 线性 
的 转换 成 线性 的 进行 研究 ,同时 也 是 把 高 维 的 转换 成 低 维 的 ;支持 向 量 机 (SVM) 其 实 就 
是 反 过 来 的 ,把 低 维 的 转换 成 高 维 的 ,把 非 线 性 的 转换 成 线性 的 。 

另 一 种 是 分 类 和 聚 类 。 在 生活 中 ,我 们 常常 没有 过 多 地 去 区 分 这 两 个 概念 ,觉得 聚 类 
就 是 分 类 ,分 类 也 差不多 就 是 聚 类 。 分 类 与 聚 类 之 间 在 机 器 学 习 中 有 本 质 的 区 别 。 
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量化 投资 与 Python 语言 


1. 分 类 

分 类 是 通过 学 习 来 得 到 样本 属性 与 分 析 对 象 的 关系 。 

有 具体 来 说 ,就 是 我 们 根据 已 知 的 一 些 样本 ,来 得 到 分 类 模型 (其 实 就 是 一 种 函数 关 
系 ) ,然后 通过 目标 函数 来 对 只 包含 属性 的 样本 数据 进行 分 类 。 

分 类 要 求 必须 事先 明确 知道 各 个 类 别 的 信息 ,并 且 断 言 所 有 待 分 类 项 都 有 一 个 类 
别 与 之 对 应 。 但 是 很 多 时 候 上 述 条 件 得 不 到 满足 ,尤其 是 在 处 理 海量 数据 的 时 候 , 如 
果 通 过 预 处 理 使 得 数据 满足 分 类 算法 的 要 求 , 则 代价 非常 大 ,这 时 候 可 以 考虑 使 用 聚 

2. 聚 类 

聚 类 指 事先 并 不 知道 任何 样本 的 类 别 标号 ,希望 通过 某 种 算法 来 把 一 组 未 知 类 别 的 
样本 划分 成 若干 类 别 。 

聚 类 的 时 候 ,我 们 并 不 关心 某 一 类 是 什么 ,我 们 需要 实现 的 目标 只 是 把 相似 的 东西 聚 
到 一 起 ,这 在 机 器 学 习 中 被 称 作 无 监督 学 习 (unsupervised learning) ,前面 的 分 类 就 被 称 
作 有 监督 学 习 。 

通常 ,人 们 根据 样本 间 的 某 种 距离 或 者 相似 性 来 定义 聚 类 , 即 把 相似 的 (或 距离 近 的 ) 
样本 聚 为 同一 类 ,而 把 不 相似 的 (或 距离 远 的 ) 样 本 归 在 其 他 类 。 

聚 类 的 目标 : 组 内 的 对 象 相互 之 间 是 相似 的 (相关 的 ) ,而 不 同 组 中 的 对 象 是 不 同 的 
(不 相关 的 )。 组 内 的 相似 性 越 大 ,组 间 差 别 越 大 , 聚 类 就 越 好 。 

3. 分 类 和 聚 类 的 关系 

聚 类 分 析 是 研究 如 何在 没有 训练 的 条 件 下 把 样本 划分 为 若干 类 。 

在 分 类 中 ,对 于 目标 数据 库 中 存在 哪些 类 是 知道 的 ,要 做 的 就 是 将 每 一 条 记录 分 别 属 
于 哪 一 类 标记 出 来 。 

聚 类 需要 解决 的 问题 是 将 已 给 定 的 若干 无 标记 的 模式 聚集 起 来 ,使 之 成 为 有 意义 的 
聚 类 , 聚 类 是 在 预先 不 知道 目标 数据 库 到 底 有 多 少 类 的 情况 下 ,希望 将 所 有 的 记录 组 成 不 
同 的 类 或 者 说 聚 类 ,并 且 使 得 在 这 种 分 类 情况 下 ,以 某 种 度量 (如 距离 ) 为 标准 的 相似 性 ， 
在 同一 聚 类 之 间 最 小 化 ,而 在 不 同 聚 类 之 间 最 大 化 。 

与 分 类 不 同 ,无 监督 学 习 不 依赖 于 预先 定义 的 类 或 带 类 标记 的 训练 实例 ,需要 由 聚 类 
学 习 算 法 自动 确定 标记 ,而 分 类 学 习 的 实例 或 数据 样本 有 类 别 标记 。 


3.3 机 器 学 习 的 常用 算法 


机 器 学 习 的 常用 算法 很 多 ,而且 现 在 有 许多 已 实现 的 机 器 学 习 开源 包 可 供 我 们 调用 。 
如 果 我 们 能 对 常见 的 算法 熟练 掌握 ,比如 通过 使 用 Python 实现 算法 ,加 深 对 机 器 学 习 的 
本 质 理解 ,那么 ,我们 在 量化 投资 领域 里 面 就 会 有 更 多 机 遇 。 

1. 线性 回归 

这 里 说 线性 回归 是 因为 我 们 讲 的 回归 基本 上 就 是 线性 回归 ,也 就 是 用 线性 的 方法 去 
解决 非 线 性 的 问题 。 说 得 更 极端 一 些 , 机 器 学 习 里 面 的 所 有 算法 都 可 以 看 作 是 初中 学 习 
的 一 次 函数 思想 , 即 Y 二 AX 来 看 机 器 学 习 发 展 过 程 中 的 各 个 理论 或 者 算法 。 


2. 支持 向 量 机 (SVMD) 

SVM 的 关键 在 于 核 函 数 。 低 维 空间 向 量 集 通常 难于 划分 ,解决 的 方法 是 将 它们 映 
射 到 高 维 空间 。 但 这 种 办 法 带 来 的 困难 就 是 计算 复杂 度 的 增加 ,而 核 函 数 正好 巧妙 地 解 
决 了 这 个 问题 。 也 就 是 说 ,只 要 选用 适当 的 核 函 数 ,就 可 以 得 到 高 维 空间 的 分 类 函数 。 在 
SVM 理论 中 ,采用 不 同 的 核 函数 将 导致 不 同 的 SVM 算法 。 在 确定 了 核 函 数 之 后 ,由 于 
确定 核 函 数 的 已 知 数据 也 存在 一 定 的 误差 ,考虑 到 推广 性 问题 ,因此 引入 了 松弛 系数 以 及 
惩罚 系数 两 个 参 变量 来 加 以 校正 。 在 确定 了 核 函 数 的 基础 上 ,再 经 过 大 量 对 比 实验 等 取 
定 这 两 个 系数 ,该 项 研究 就 基本 完成 了 ,适合 相关 学 科 或 业务 内 应 用 , 且 有 一 定 能 力 的 推 
广 性 。 

3. 聚 类 

所 谓 聚 类 ,就 是 将 相似 的 事物 聚集 在 一 起 ,而 将 不 相似 的 事物 划分 到 不 同 的 类 别 的 
过 程 , 是 机 器 学 习 中 十 分 重要 的 一 种 手段 。 比 如 古典 生物 学 之 中 ,人 们 通过 物种 的 形 
貌 特征 将 其 分 门 别 类 ,可 以 说 就 是 一 种 朴素 的 人 工 聚 类 。 如 此 ,我 们 就 可 以 将 世界 上 
纷繁 复杂 的 信息 ,简化 为 少数 方便 人 们 理解 的 类 别 ,可 以 说 是 人 类 认 知 这 个 世界 的 最 
基本 方式 之 一 。 

在 数据 分 析 的 术语 之 中 ,分 类 和 聚 类 是 两 种 技术 。 分 类 是 指 我 们 已 经 知道 了 事物 的 
类 别 ,需要 从 样品 中 学 习 分 类 的 规则 ,是 一 种 有 指导 学 习 ; 而 聚 类 则 是 由 我 们 来 给 定 简单 
的 规则 ,从 而 得 到 分 类 ,是 一 种 无 指导 学 习 。 两 者 可 以 说 是 相反 的 过 程 。 

这 里 ,我 建议 读者 需要 熟练 掌握 EM 算法 。 

最 大 期 望 算法 (expectation-maximization algorithm,EM) ,又 称 为 期 望 最 大 化 算法 ， 
在 统计 中 被 用 于 寻找 ,依赖 于 不 可 观察 的 隐 性 变量 的 概率 模型 中 ,参数 的 最 大 似 然 估计 。 

在 统计 计算 中 ,最 大 期 望 (EM) 算 法 是 在 概率 (probabilistic) 模 型 中 寻找 参数 最 大 似 
然 估 计 或 者 最 大 后 验 估计 的 算法 ,其 中 概率 模型 依赖 于 无 法 观测 的 隐藏 变量 (latent 
variable) 。 最 大 期 望 经 常用 在 机 器 学 习 和 计算 机 视觉 的 数据 聚 类 (data clustering) 领域。 
最 大 期 望 算 法 经 过 两 个 步骤 交 蔡 进行 计算 ,第 一 步 是 计算 期 望 (E) ,利用 对 隐藏 变量 的 现 
有 估计 值 ,计算 其 最 大 似 然 估 计 值 ;第 二 步 是 最 大 化 (M) .最 大 化 是 在 玉 步 上 求 得 的 最 大 
似 然 值 来 计算 参数 的 值 。M 步 上 找到 的 参数 估计 值 被 用 于 下 一 个 E 步 计算 中 ,这 个 过 程 
不 断交 蔡 进 行 。 

K-means 是 最 为 常用 的 聚 类 方法 之 一 ,其 实 就 是 EM 算法 的 一 种 特例 。 

4. 分 类 

贝 叶 斯 是 常见 的 分 类 方法 , 它 是 在 量化 投资 中 应 用 最 多 的 一 种 策略 。 

贝 叶 斯 算法 的 精 摔 在 于 其 提供 了 一 种 数学 法 则 来 解释 当 有 一 系列 新 证 据 出 现 的 情况 
下 ,你 该 如 何 改 变 自己 现 有 的 信念 。 一 个 典型 的 例子 就 是 : 看 到 第 一 次 日 出 时 ,接着 会 想 
知道 太阳 是 否 会 再 次 升 起 。 于 是 赋予 两 个 可 能 的 结果 同等 的 先 验 概率 ,并 且 在 一 个 袋子 
里 面 放 入 一 颗 白 球 .一 颗 黑 球 ,分 别 代 表 太 阳 会 再 次 升 起 ,太阳 不 会 再 次 升 起 。 第 二 天 , 当 
太阳 再 次 升 起 的 时 候 , 在 袋子 里 面 再 放 和 人 一 颗 白 球 ,于 是 概率 由 初始 的 1/2, 上 升 到 了 
2/3, 第 三 天 , 当 太 阳 再 一 次 升 起 的 时 候 , 再 放 入 一 颗 白 球 ,此 时 的 概率 (信念 的 程度 ) 已 经 
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2. 支持 向 量 机 (SVMD) 
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基本 方式 之 一 。 

在 数据 分 析 的 术语 之 中 ,分 类 和 聚 类 是 两 种 技术 。 分 类 是 指 我 们 已 经 知道 了 事物 的 
类 别 ,需要 从 样品 中 学 习 分 类 的 规则 ,是 一 种 有 指导 学 习 ; 而 聚 类 则 是 由 我 们 来 给 定 简单 
的 规则 ,从 而 得 到 分 类 ,是 一 种 无 指导 学 习 。 两 者 可 以 说 是 相反 的 过 程 。 

这 里 ,我 建议 读者 需要 熟练 掌握 EM 算法 。 

最 大 期 望 算法 (expectation-maximization algorithm,EM) ,又 称 为 期 望 最 大 化 算法 ， 
在 统计 中 被 用 于 寻找 ,依赖 于 不 可 观察 的 隐 性 变量 的 概率 模型 中 ,参数 的 最 大 似 然 估计 。 

在 统计 计算 中 ,最 大 期 望 (EM) 算 法 是 在 概率 (probabilistic) 模 型 中 寻找 参数 最 大 似 
然 估 计 或 者 最 大 后 验 估计 的 算法 ,其 中 概率 模型 依赖 于 无 法 观测 的 隐藏 变量 (latent 
variable) 。 最 大 期 望 经 常用 在 机 器 学 习 和 计算 机 视觉 的 数据 聚 类 (data clustering) 领域。 
最 大 期 望 算 法 经 过 两 个 步骤 交 蔡 进行 计算 ,第 一 步 是 计算 期 望 (E) ,利用 对 隐藏 变量 的 现 
有 估计 值 ,计算 其 最 大 似 然 估 计 值 ;第 二 步 是 最 大 化 (M) .最 大 化 是 在 玉 步 上 求 得 的 最 大 
似 然 值 来 计算 参数 的 值 。M 步 上 找到 的 参数 估计 值 被 用 于 下 一 个 E 步 计算 中 ,这 个 过 程 
不 断交 蔡 进 行 。 

K-means 是 最 为 常用 的 聚 类 方法 之 一 ,其 实 就 是 EM 算法 的 一 种 特例 。 

4. 分 类 

贝 叶 斯 是 常见 的 分 类 方法 , 它 是 在 量化 投资 中 应 用 最 多 的 一 种 策略 。 

贝 叶 斯 算法 的 精 摔 在 于 其 提供 了 一 种 数学 法 则 来 解释 当 有 一 系列 新 证 据 出 现 的 情况 
下 ,你 该 如 何 改 变 自己 现 有 的 信念 。 一 个 典型 的 例子 就 是 : 看 到 第 一 次 日 出 时 ,接着 会 想 
知道 太阳 是 否 会 再 次 升 起 。 于 是 赋予 两 个 可 能 的 结果 同等 的 先 验 概率 ,并 且 在 一 个 袋子 
里 面 放 入 一 颗 白 球 .一 颗 黑 球 ,分 别 代 表 太 阳 会 再 次 升 起 ,太阳 不 会 再 次 升 起 。 第 二 天 , 当 
太阳 再 次 升 起 的 时 候 , 在 袋子 里 面 再 放 和 人 一 颗 白 球 ,于 是 概率 由 初始 的 1/2, 上 升 到 了 
2/3, 第 三 天 , 当 太 阳 再 一 次 升 起 的 时 候 , 再 放 入 一 颗 白 球 ,此 时 的 概率 (信念 的 程度 ) 已 经 
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由 2/3 上 升 到 了 3/4。 随 着 时 间 的 推移 ,最 初 认为 太阳 每 天 早晨 是 否 升 起 的 怀疑 信念 ,就 
慢 慢 地 被 修正 为 几乎 可 以 断定 太阳 永远 会 再 次 升 起 。 理 解 了 贝 叶 斯 算法 ,遗传 算法 就 容 
易 理 解 了 。 

贝 叶 斯 在 我 们 理解 市 场 微 观 结构 ,比如 做 市 商 模型 或 者 在 做 高 频 交 易 策 略 方面 ,可 以 
应 用 于 订单 流 策略 设计 。 


金融 科技 在 金融 中 的 应 用 


4.1 在 量化 投资 中 的 应 用 


金融 科技 作为 一 种 手段 或 者 技术 ,可 以 做 的 事情 是 很 多 的 。 这 里 ,我 们 只 是 针对 有 财 
经 院 校 背景 的 比较 容易 接受 而 且 很 容易 理解 的 一 些 应 用 进行 讲解 ,对 我 们 今后 的 工作 也 
是 一 种 期 待 。 

对 于 金融 科技 的 一 种 口号 式 的 回应 ,我 们 可 以 说 金融 科技 实现 的 可 能 是 实现 一 切 皆 
可 数据 化 一 切 皆 可 量化 ,一 切 丝 可 预测 。 

我 们 谈 这 些 金融 科技 在 金融 中 的 应 用 也 是 按照 一 种 模式 来 解释 的 ,比如 优势 是 什么 ， 
解决 了 什么 问题 ,有 什么 不 足 的 ,等 等 。 我 们 的 目的 也 是 形成 一 种 看 法 ,而 不 是 听 了 很 多 
概念 ,就 像 看 朋友 圈 ,信息 泛滥 ,怎么 去 过 滤 为 自己 所 用 呢 ? 

量化 投资 解决 的 问题 是 传统 投资 者 主观 投资 中 的 不 足 之 处 。 

交易 前 的 准备 阶段 。 在 做 交易 决策 前 ,可 能 是 基于 现象 的 预 判 而 进行 的 投资 ,也 可 能 
是 基于 事件 进行 的 投资 。 一 个 事件 ,一 个 现象 ,就 像 盲人 摸 象 一 样 ,看 到 的 很 多 是 片面 的 ， 
作出 的 决策 也 许 就 是 随机 的 。 当 然 , 有 当年 的 投资 者 长 达 很 多 年 的 分 析 ,我 想 这 个 类 似 自 
己 买 了 一 台 计算 机 一 样 , 多 年 的 数据 自己 脑海 里 面 一 清二 楚 ,可 是 我 们 认为 这 些 数据 远 远 
不 及 现在 大 数据 技术 所 体现 出 来 的 效用 。 

交易 中 的 决策 。 这 也 是 主观 交易 面临 的 不 足 , 人 都 有 情绪 化 或 者 当面 临 很 多 标的 的 
时 候 , 一 个 人 或 者 手工 就 很 难 解决 这 些 问题 了 。 

量化 投资 就 是 要 解决 这 些 问题 , 即 数据 的 收集 和 数据 分 析 能 力 的 提升 ,高 速 确定 交易 
决策 。 

基于 大 数据 分 析 的 量化 投资 , 它 具 有 一 个 显著 功效 ,就 是 把 人 的 情绪 排除 在 投资 进程 
之 外 一 一 整个 投资 进程 完全 按照 人 预先 设 定 的 程序 进行 操作 。 把 人 的 情绪 排除 在 外 的 一 
个 作用 就 是 确保 投资 进程 的 客观 性 ,确保 这 样 的 客观 性 是 重要 的 ,因为 量化 投资 策略 的 构 
建 本 身 是 基于 客观 的 规律 ,这 些 规律 由 基于 大 数据 分 析 总 结 出 来 的 ,它们 具有 客观 的 精 
确 性 。 

量化 投资 的 科学 依据 :“ 历 史 会 重复 ”。 

构建 量化 投资 策略 时 ,通常 通过 分 析 历史 数据 ,获得 经 验 规律 ,然后 ,把 此 规律 用 于 预 
测 市 场 的 未 来 走势 ,以 便 从 中 获 利 。 这 里 的 一 个 科学 依据 是 : 历史 往往 会 重复 。 其 实 , 不 
仅 股票 市 场 过 去 的 历史 会 在 未 来 重复 ,同期 来 看 ,一 个 国家 的 股票 市 场 的 某 些 规律 ,也 可 
能 在 另 一 个 国家 的 股票 市 场 中 重复 出 现 。 

当然 ,这 里 的 重复 需要 我 们 自己 的 理解 。 就 像 太 阳 每 天 都 会 升 起 ,我 们 说 每 天 都 是 新 
的 还 是 说 每 天 都 是 一 样 的 ,不 同 的 价值 观 和 不 同 的 视角 导致 我 们 在 对 一 些 很 简单 很 朴素 
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的 道理 面前 理解 偏差 巨大 ,从 而 量化 投资 决策 的 效果 差距 也 是 很 大 。 

量化 投资 的 挑战 或 问题 有 两 个 方面 ,一 方面 量化 投资 是 一 个 新 兴 的 领域 ,很 多 方面 还 
不 完善 ,自然 也 就 存在 各 种 各 样 的 问题 ,比如 各 种 量化 交易 平台 的 搭建 ,关于 这 方面 的 法 
律 的 完善 ,等 等 ; 另 一 方面 是 因为 量化 只 是 一 个 手段 ,就 像 刀 剑 一 样 , 对 于 量化 的 这 样 的 技 
术 所 涉及 的 数据 收集 ,数据 分 析 以 及 决策 也 有 可 能 助长 错误 的 发 生 。 


4.2 Python 在 智能 投 顾 中 的 应 用 


智能 投 顾 并 不 是 量化 投资 。 

其 实 很 多 时 候 我 们 在 区 别 很 多 观念 或 者 相似 词语 区 别 时 ,一 定 先 从 这 个 概念 或 者 词 
语 本 身 去 思考 。 量 化 投资 强调 的 是 通过 量化 的 方式 去 做 投资 ,量化 交易 也 如 是 。 智 能 投 
顾 是 基于 人 工 智 能 的 投 顾 。 

可 问题 就 在 于 ,最 简单 的 词语 解释 起 来 最 麻烦 。 比 如 投 顾 ,怎么 理解 投 顾 呢 ? 业内 有 
不 同 的 说 法 ,有 一 些 把 股票 操盘手 叫 作 投 顾 ,有 一 些 把 证 券 公司 的 客户 经 理 叫 作 投 顾 , 有 
一 些 把 私募 基金 的 基金 经 理 叫 作 投 顾 。 

投资 顾问 其 实 就 是 解决 用 户 和 金融 产品 端的 沟通 。 有 具体 的 说 法 是 ,投资 顾问 服务 于 
把 金融 产品 更 优化 地 面向 用 户 进行 配置 。 

智能 投 顾 就 是 通过 人 工 智 能 来 更 好 地 实现 这 样 的 服务 。 

很 多 纷繁 复杂 的 信息 、 概 念 ,我 们 用 学 习 数学 的 方式 来 建立 模型 ,理解 和 表达 更 容易 
更 好 地 提升 自己 的 价值 。 

那么 智能 投 顾 解决 的 是 哪些 问题 呢 ? 

一 方面 是 根据 用 户 不 同 的 风险 需求 定制 资产 组 合 。 这 个 就 像 厨 师 做 的 工作 一 样 , 厨 
师 有 各 种 食材 ,根据 客户 的 口味 做 成 客户 最 期 待 的 ,给 客户 最 优化 的 体验 。 智 能 投 顾 就 是 
通过 大 规模 的 金融 计算 ,结合 金融 投资 组 合理 论 计算 最 优 投 资 组 合 ,让 资产 配置 最 优化 
让 投资 决策 更 理性 。 

男 一 方面 是 怎样 去 量化 客户 的 风险 需求 以 及 其 他 需求 ,因为 沟通 成 本 巨大 ,可 能 很 多 
时 候 我 们 和 客户 交流 一 天 或 者 一 周 都 不 大 清楚 客户 到 底 需 要 什么 ,或 者 客户 都 不 清楚 自 
己 的 需求 。 但 是 我 们 通过 大 数据 ,比如 客户 的 消费 记录 、 信 用 记录 ,以 及 客户 可 以 查询 到 
的 公开 信息 能 够 获取 客户 的 风险 偏好 。 

当然 ,我 们 可 以 更 加 模型 化 地 概括 智能 投 顾 的 一 个 特点 。 

第 一 步 是 通过 大 数据 技术 获取 客户 个 性 化 的 风险 需求 以 及 变化 规律 。 

第 二 步 是 通过 各 种 算法 定制 个 性 化 的 资产 配置 解决 方案 。 

第 三 步 是 对 这 个 解决 方案 进行 实时 跟踪 并 能 作出 相应 的 调整 。 

我 们 会 发 现 很 多 东西 在 “三 ”以 内 进行 解释 是 最 容易 被 理解 的 。 我 们 向 对 方 解 释 不 用 
谈 太 多 ,三 点 以 内 ;要 塑造 价值 通过 各 种 灵活 的 方式 做 二 分 法 。 


4.3 Python 在 征 信 中 的 应 用 


在 金融 行业 工作 中 , 征 信 应 该 是 被 理解 得 最 深刻 的 一 个 词 了 。 

甚至 ,我 们 可 以 说 做 金融 就 是 做 征 信 。 

征 信和 我 们 日 常生 活 中 的 沟通 ,购物 一 样 都 是 在 收集 我 们 的 数据 ,最 核心 的 是 这 些 数 
据 直 接 和 我 们 个 人 融资 能 力 是 相关 的 。 

长 久 以 来 ,QQ 和 淘宝 垄断 着 我 们 的 线 上 沟通 工具 和 购物 ,同样 征 信 却 一 直 是 央行 的 
权利 。 随 着 大 数据 技术 的 发 展 ,腾讯 也 有 微粒 贷 ,阿里 巴巴 有 芝麻 信用 。 他 们 都 在 做 着 征 
信 的 工作 。 

中 国有 着 十 多 亿 人 口 ,没有 征 信 记录 的 有 五 亿 多 人 ,怎么 满足 这 些 人 的 金融 需求 ,这 
就 是 做 大 数据 征 信 的 市 场 巨 大 机 遇 。 

说 了 这 么 多 ,我 们 还 是 按照 同样 的 方法 论 来 解释 征 信 。 

征 信 的 定义 或 者 本 质 是 什么 呢 ? 

收集 用 户 的 数据 对 用 户 本 身 的 特征 描绘 和 风险 判断 有 显著 作用 就 是 征 信 。 

这 句 话 有 点 长 ,简单 地 说 ,能 成 为 信用 数据 的 就 是 征 信 。 

事实 也 是 这 样 ,现在 获取 信息 的 渠道 和 能 力 都 越 来 越 强 了 , 一 切 信息 皆 可 以 成 为 信 
用 数据 ,经 过 分 析 后 都 可 用 于 证 明 一 个 人 或 企业 的 信用 状况 。 

因为 数据 覆盖 广 、 维 度 多 ,因此 形成 了 广义 的 征 信 ,我们 也 可 以 叫 作 大 数据 征 信 。 

大 数据 征 信 主要 还 是 数据 问题 ,怎么 获取 数据 、 清 洗 数 据 ,事实 上 这 些 需要 前 期 投入 
巨大 的 人 力 、 物 力 ,不 仅 周期 长 且 回 报 慢 。 尤 其 是 个 人 征 信 这 部 分 ,对 于 数据 资金 技术， 
以 及 场景 都 有 很 高 的 要 求 。 个 人 征 信 公司 经 营 成 功 的 关键 可 能 就 在 于 : 数据 来 源 的 范围 
和 准确 性 ,数据 处 理 能 力 .数据 产品 是 否 能 够 满足 客户 要 求 、 是 否 具 有 和 多样 性 。 

从 大 数据 征 信 的 解决 的 问题 来 看 ,一 方面 确实 是 解决 个 人 的 金融 需求 ,比如 贷款 等 ， 
另 一 方面 大 数据 征 信 已 从 金融 业务 向 生活 服务 蔓延 。 其 中 ,最 核心 的 两 个 价值 就 是 : 防 
范 欺 诈 风 险 和 信用 风险 。 简 单 来 说 就 是 : 既 要 证 明 “ 你 是 你 ”, 还 要 描述 出 “你 是 什么 样 的 
人 ”。 现 在 ,人 脸 识 别 因 其 技术 的 成 熟 度 和 准确 率 ,以 及 使 用 的 便捷 性 而 被 进一步 普及 。 
腾讯 征 信 、 芝 麻 征 信 以 及 很 多 银行 贷款 都 在 使 用 这 种 技术 ,在 一 般 情况 下 ,只 需要 拿 着 手 
机 拍照 ,银行 系统 就 会 自动 获取 你 的 信息 并 快速 告诉 你 的 信用 评级 和 各 种 支持 的 金融 
服务 。 

大 数据 征 信 还 面临 的 问题 或 者 不 足 的 怎么 去 看 呢 , 其 实 和 量化 投资 一 样 ,大 数据 征 信 
也 是 一 种 技术 手段 ,不 可 避免 会 遇 到 这 些 问 题 。 这 个 读者 可 能 有 体验 ,比如 申请 各 个 银行 
的 信用 卡 ,授权 给 你 的 额度 每 个 银行 都 是 不 一 样 的 ,除了 获取 的 数据 也 许 不 一 样 之 外 ,更 
大 的 不 同 是 各 个 银行 使 用 的 信用 风险 模型 不 一 样 ,这 就 会 导致 你 得 到 的 信用 卡 额度 不 一 
样 。 当 然 这 也 许 就 是 每 个 银行 在 大 数据 征 信 的 核心 竞争 力 。 
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Python 在 金融 行业 的 应 用 


每 个 人 的 核心 竞争 力 就 像 生活 中 每 天 刷 信 用 卡 一 样 , 是 逐渐 累积 的 。 
5.1 Python 在 金融 行业 的 现状 和 应 用 


1. 编程 和 金融 

几 年 以 前 ,可 能 财经 院 校 的 毕业 生 ,而 且 更 多 的 是 研究 生 ,在 校 期 间 可 能 想到 的 是 毕 
业 后 进 银 行 ,其 实现 在 去 银行 的 很 多 时 候 也 是 从 柜台 做 起 ,不 是 不 优秀 ,是 资源 配置 所 导 
致 的 ,我 想 大 家 也 是 知道 的 。 可 现在 是 ,银行 柜台 可 能 都 会 逐渐 减少 或 者 消失 ,很 多 营业 
网 点 柜台 人 员 也 是 越 来 越 少 ,办 业务 的 人 也 越 来 越 少 的 。 在 “90 后 ”全面 接 管 的 消费 市 场 
中 ,通过 手机 很 多 业务 都 是 可 以 办 理 的 。 拿 着 手机 拍 个 照 ,个 人 的 信用 马上 就 会 被 银行 读 
取 , 各 种 业务 权限 和 信用 等 级 ,银行 系统 都 能 及 时 显示 。 

科技 终 是 在 改变 生活 。 

大 数据 、 云 计算 以 及 这 两 年 的 区 块 链 这 些 词 语 在 金融 行业 中 使 用 是 最 频繁 的 ,不 在 朋 
友 圈 发 几 篇 相关 的 文章 , 嘴 里 不 说 这 些 词 语感 觉 就 不 是 玩 金 融 的 一 样 。 当 然 ,事实 也 是 科 
技 在 金融 中 的 应 用 是 最 前 沿 ,最 全 面 ,影响 也 是 最 大 的 。 

对 于 金融 行业 ,今后 几 十 年 都 会 被 看 作 是 年 轻 人 渴望 从 事 的 行业 ,而 且 毫 无 疑问 是 朝 
阳 行 业 , 一 直 也 会 是 朝阳 行业 。 对 于 渴望 在 这 个 行业 能 够 获取 超额 回报 的 ,自身 也 是 需要 
具有 核心 竞争 力 的 。 

对 于 就 业 来 说 ,我 们 可 以 将 金融 行业 分 为 金融 机 构 和 金融 科技 类 企业 。 这 里 的 金融 
机 构 包括 银行 、 证 券 、 基 金 \ 信 托 \、 保 险 、 期 货 等 ,金融 科技 包括 互联 网 金融 企业 、 金 融 大 数 
据 企业 和 量化 投资 平台 。 互 联网 金融 企业 主要 包括 P2P ,金融 大 数据 包含 消费 金融 .监管 
科技 等 ;量化 投资 平台 包括 像 京 东 金 融 这 样 的 企业 。 

对 于 金融 机 构 来 讲 ,我们 也 是 要 么 拼 学 历 和 证 书 , 要 么 拼 工 作 经 验 。 毕 竟 这 些 东 西 都 
是 客观 的 形式 的 ,也 正 因为 这 样 才 是 可 以 量化 的 .评估 的 ,比如 你 是 985 还 是 211, 你 是 
研究 生还 是 本 科 生 ,你 是 在 中 国 银行 工作 的 还 是 在 某 一 家 跑 路 了 的 公司 待 过 的 ,你 是 工作 
了 10 年 还 是 工作 了 3 年 ,你 是 考 了 CFA 二 级 还 是 考 了 基金 从 业 资格 。 如 果 你 说 你 会 这 
个 信用 风险 建 模 的 某 个 厉害 的 算法 ,或 者 你 说 你 会 用 BS 公式 的 某 一 个 结论 得 出 某 个 类 
型 的 期 权 定价 数值 计算 公式 .应 聘 的 时 候 也 是 会 碰壁 的 ,毕竟 很 难 量化 很 难 评估 你 是 万 里 
挑 一 的 人 才 , 就 看 其 他 人 是 怎么 理解 的 了 ,即使 你 自己 后 来 单独 创业 获得 了 A 轮 融 资 。 

不 是 名 校 , 又 没有 证 书 , 就 没有 可 以 拼 的 吗 ? 

对 于 金融 科技 企业 来 讲 ,我 们 可 以 去 应 聘 吗 ? 当然 可 以 的 ,不 管 是 前 台 、 中 台 还 是 后 
台 , 因 为 金融 科技 ,服务 的 也 是 金融 类 机 构 或 者 也 是 和 金融 相关 的 。 那 我 们 赁 什么 去 金融 


科技 企业 呢 ? 

“在 未 来 ,很 可 能 一 群 把 Python 语言 玩弄 在 股 掌 之 间 的 人 ,将 成 为 金融 界 的 新 星 。” 

就 跟 Javascript 在 Web 领域 无 可 撼动 的 地 位 一 样 ,Python 也 已 经 在 金融 量化 投资 领 
域 占 据 了 重要 位 置 ,从 各 个 业务 链条 都 能 找到 相应 的 框架 实现 。 

金融 科技 企业 大 部 分 都 是 用 Python ,后 台 用 Python 和 C++ 做 大 数据 系统 构建 ,中 
台 用 Python 做 数据 分 析 ,展示 给 客户 的 也 用 Python。 

Python 是 一 门 比较 全 面 与 平衡 的 语言 , 既 能 满足 包括 Web 在 内 的 系统 应 用 的 开发 ， 
又 能 满足 数据 统计 分 析 等 数学 领域 的 计算 需求 ,同时 也 能 作为 胶水 语言 跟 其 他 开发 语言 
互通 融合 。 

Python 在 金融 行业 简直 就 是 主流 语言 。 

2. 人 生 苦 短 ,我 用 Python 

(1) Python 介绍 。 你 可 能 已 经 听 说 过 很 多 种 流行 的 编程 语言 ,比如 非常 难 学 的 C 语 
言 ,非常 流行 的 Java 语言 。 

那 Python 是 一 种 什么 语言 呢 ? 

比如 ,完成 同一 个 任务 ,C 语言 要 写 1 000 行 代 码 ,Java 只 需要 写 100 行 ,而 Python 
可 能 只 要 20 行 。 

如 果 你 是 来 自 财经 院 校 或 者 不 接触 编程 好 多 年 了 ,比如 你 会 使 用 计算 机 ,但 从 来 没 写 
过 程序 ;还 记得 初中 数学 学 的 方程 式 和 一 点 点 代数 知识 ; 想 从 编程 小 白 变 成 专业 的 金融 大 
数据 架构 师 ; 每 天 能 抽出 半 个 小 时 学 习 。 那 么 这 本 书 是 适合 你 的 。 

(2) Python 的 特点 。Python 有 如 下 特征 。 

@ 开源 。Python 和 大 部 分 可 用 的 支持 库 及 工具 都 是 开源 的 ,通常 使 用 相当 灵活 和 
开放 的 许可 证 。 

@ 解释 型 。CPython 参考 实现 是 该 语言 的 一 个 解释 程序 ,在 运行 时 将 Python 代码 
翻译 为 可 执行 字 节 代码 。 

@ 多 用 途 。Python 可 以 用 于 快速 ,交互 式 代 码 开发 ,也 可 以 用 于 构建 大 型 应 用 程 
序 ; 它 可 以 用 于 低级 系统 操作 ,也 可 以 承担 高 级 分 析 任 务 。 

@ 跨 平 台 。Python 可 用 于 大 部 分 重要 的 操作 系统 ,如 Windows、Linux 和 Mac OS; 
它 用 于 构建 桌面 应 用 和 Web 应 用 ;可 以 在 最 大 的 群集 和 最 强大 的 服务 器 上 使 用 ,也 可 以 
在 树 莹 派 (http://www. raspberrypi. org) 这 样 的 小 设备 上 运行 。 

@ 动态 类 型 。Python 中 的 类 型 通常 在 运行 时 推 知 ,而 不 像 大 部 分 编译 语言 那样 静 
态 声明 。 

(3) Python 和 MATLAB/R 语言 。 做 数据 分 析 、 科 学 计算 等 离 不 开工 具 、 语 言 的 使 
用 ,目前 最 流行 的 数据 语言 ,无 非 是 MATLAB、R 语言 和 Python 这 三 种 语言 。 为 什么 
Python 比 MATLAB.R 语言 好 呢 ? 

其 实 , 这 三 种 语言 都 有 很 多 数据 分 析 师 在 用 ,但 更 推荐 Python, 主 要 是 有 以 下 几 点 
理由 。 

@ Python 易学 、 易 读 、 易 维护 ,处 理 速度 也 比 及 语言 要 快 。 

@ Python 势头 猛 ,众多 大 公司 需要 ,市场 前 景 广阔 ;而 MATLAB 语言 比较 局 限 , 专 
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量化 投资 与 Python 语言 


注 于 工程 和 科学 计算 方面 。 

@ Python 具有 丰富 的 扩展 库 , 这 个 是 MATLAB 和 及 语言 所 不 能 比拟 的 。 

(4) Python 版 本 选择 。 初 学 者 版 本 选择 是 很 多 人 都 会 问 的 ,我 们 也 不 会 偏向 某 个 版 
本 ,主要 根据 自己 的 所 需 ,毕竟 只 是 一 个 编程 的 工具 ,我 们 面向 的 对 象 不 是 编程 高 手 。 本 
书 建议 选择 最 新 版 本 Python 3. x, 而 且 本 书 的 案例 实现 都 是 基于 Python 3. x。 

至 于 为 什么 选择 Python 3. x, 这 是 关于 Python 的 一 个 最 具 争 议 的 话题 。 你 可 能 总 
是 不 能 避免 地 遇 到 ,尤其 是 如 果 你 是 一 个 初学 者 ,并 且 一 定 要 给 个 理由 ,我 们 可 以 有 以 下 
两 种 看 法 。 

O@ 更 整齐 和 更 快 。Python 开发 者 修正 了 一 些 固有 的 问题 和 小 缺点 ,以 此 为 未 来 建 
立 一 个 强大 的 基础 。 这 些 可 能 不 是 很 相关 的 ,但 最 终 会 很 重要 。 

@ 这 是 未 来 。2.7 是 2. x 族 发 布 的 最 后 一 个 版 本 ,并 且 最 终 每 个 人 都 要 转移 到 3. x 
版 本 。Python 3 是 在 过 去 5 年 已 经 发 布 过 的 稳定 版 本 ,并 将 继续 。 

当然 ,不 管 怎 样 ,读者 应 该 专注 于 学 习 Python 语言 。 版 本 之 间 的 转换 应 该 只 是 一 个 
实际 问题 。 毕 竞 , 对 我 们 来 说 ,都 只 是 一 种 工具 。 

3. Python 在 金融 中 的 应 用 

(1) Python 用 于 金融 中 的 数据 分 析 。 在 金融 行业 ,我 们 可 以 初步 把 Python 的 应 用 
分 为 数据 分 析 、 量 化 投资 和 人 金融 大 数据 平台 搭建 。 

数据 分 析 可 以 使 用 Python 实现 ,有 足够 的 Python 库 来 支持 数据 分 析 。Pandas 是 一 
个 很 好 的 数据 分 析 工 具 , 因 为 它 的 工具 和 结构 很 容易 被 用 户 掌握 。 对 于 大 数据 来 说 , 它 无 
疑 是 一 个 最 合适 的 选择 。 即 使 是 在 数据 科学 领域 中 ,Python 也 因为 它 的 “开发 人 员 友 好 
性 ?而 使 其 他 语言 相形 见 绕 。 一 个 数据 科学 家 熟悉 Python 的 可 能 性 要 比 熟 悉 其 他 语言 
的 可 能 性 高 得 多 。 

除了 Python 在 数据 分 析 中 那些 很 明显 的 优点 (易学 ,大 量 的 在 线 社区 等 ) 之 外 ,在 数 
据 科学 中 的 广泛 使 用 ,以 及 我 们 今天 看 到 的 大 多 数 基于 网 络 的 分 析 , 是 Python 在 数据 分 
析 领 域 得 以 广泛 传播 的 主要 原因 。 

金融 中 的 数据 分 析 包 括 在 银行 信托 或 者 证 券 等 方面 的 应 用 ,比如 读者 在 就 业 工作 中 
不 管 是 在 银行 或 者 基金 都 会 面临 数据 分 析 ,比如 对 期 权 定价 方面 的 各 种 计算 、 波 动 率 的 计 
算 、 风 险 测度 VaR 的 计算 以 及 各 种 投资 组 合 的 优化 等 都 是 作为 数据 分 析 需 要 用 到 的 。 

在 数据 分 析 方 面 ,没有 其 他 语言 能 像 Python 这 样 既 能 精 于 计算 又 能 保持 性 能 ,对 于 
时 间 序 列 数据 的 处 理 展 现 了 简单 便捷 的 优势 。 

(2) Python 用 于 量化 投资 。 现 在 量化 投资 在 国内 是 很 热 的 了 ,毕竟 股指 期 货 以 及 今 
年 的 豆粕 期 权 等 商品 期 权 上 市 带 来 了 更 多 的 投资 机 遇 , 而 对 于 把 握 好 这 些 投资 机 遇 的 一 
个 方面 就 是 做 数据 分 析 工 作 。 

对 于 数据 的 支持 方面 ,国内 有 Wind 和 Choice; 对 于 量化 交易 平台 有 通联 、 聚 宽 和 米 
宽 等 。 对 于 这 些 平台 ,我 们 将 在 第 三 章 做 介绍 。 

3. Python 用 于 金融 大 数据 平台 搭建 

在 金融 大 数据 方面 ,比如 作为 征 信 和 金融 大 数据 的 必 备 技术 的 虫 , 读 者 感 兴趣 可 以 去 
学 习 , 因 为 很 多 网 络 数 据 自 己 也 是 可 以 写 程序 进行 收集 和 处 理 的 ,最 后 还 需要 学 习 


Hadoop 系统 的 生态 。 


5.2 青春 不 老 ,奋斗 不 止 


1. 动机 

动机 很 重要 ,读者 学 习 Python 的 动机 是 首要 的 。 比 如 如 果 只 是 希望 做 做 数据 分 析 ， 
可 以 专门 学 好 Pandas; 如果 和 希望 做 私募 基金 或 者 量化 投资 ,不 仅 除 了 熟练 使 用 Pandas 
外 ,还 需要 多 学 习 各 种 估 值 框架 、 各 种 策略 的 Python 实现 以 及 绘图 和 可 视 化 ;如 果 编 程 
真 的 是 成 为 兴趣 所 在 ,还 可 以 做 金融 大 数据 架构 ,这 时 候 你 就 可 以 学 习 Spark 以 及 Web 
集成 等 更 专业 的 技术 了 。 

2. 方法 论 

这 里 的 方法 论 和 读者 看 到 这 本 书 所 体现 的 思想 是 一 致 的 ,一 方面 对 于 知识 的 分 类 ,其 
方法 很 重要 ; 另 一 方面 对 于 工具 的 掌握 是 模型 主义 ,其 实 这 也 是 做 项 目的 一 种 思路 ,我 们 
需要 先 做 的 就 是 建立 一 个 模型 ,再 把 这 个 模型 掌握 好 ,有 了 这 么 一 个 框架 ,然后 逐渐 详细 、 
深入 、 补 充 和 完善 。 

3. 一 本 书 主义 

比如 ,你 拿 到 的 这 本 书 , 也 许 不 到 两 个 小 时 就 翻 完 了 ,但 是 我 希望 你 按照 上 面 的 进行 
练习 ,大 概 知道 怎么 去 抓 取 数 据 以 及 怎么 数据 分 析 , 我 想 接 下 来 你 会 很 快 掌 握 这 门 语言 
的 ,毕竟 Python 仅仅 是 一 种 工具 。 
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Python 的 环境 搭建 


6.1 Anaconda 介绍 


1. 为 什么 选择 Anaconda 

对 于 初学 者 ,Python 的 安装 也 许 就 是 个 头疼 的 事情 ,尤其 是 面临 Python 版 本 的 困 
境 , 浪 费 了 很 多 宝贵 的 时 间 , 甚 至 让 人 有 一 种 想 放 弃 的 感觉 ,所 以 今天 我 们 介绍 一 种 简便 
的 安装 方法 ,可 以 完美 地 兼容 Python 2.7 和 了 Python 3. 5 ,并 集成 了 许多 包 , 免 去 配置 环境 
变量 的 烦恼 ,让 大 家 和 舒 舒 服 服 地 学 习 Python, 少 走 弯路 ,并 迅速 掌握 一 门 技能 。 

我 们 选择 Anaconda 的 优势 有 如 下 几 点 。 

(1) 不 需要 重新 安装 Python ,直接 在 Windows 环境 下 一 直 单 击 确定 就 能 搞定 。 

(2) 集成 很 多 包 。 对 于 从 事 金融 行业 的 人 员 来 说 ,需要 用 的 包 都 基本 上 已 经 安装 了 ， 
不 需要 再 一 个 一 个 地 去 下 载 安装 。 接 下 来 我 们 介绍 安装 国内 需要 的 TuShare 安装 包 , 其 
在 TuShare 官网 也 有 所 介绍 。 

(3) 包 的 安装 很 简单 ,Conda 可 一 键 解决 。 

2. 详细 的 安装 步骤 

(1) 下 载 Anaconda, 其 网 址 为 https://www. continuum. io/downloads。 

@ 如 果 国 外 的 网 站 下 载 不 了 ,或 者 读者 感觉 下 载 速度 很 慢 的 话 ,可 以 用 清华 镜像 下 
载 ; http://mirrors. tuna. tsinghua. edu. cn/help/anaconda/. 

@ 如 果 你 的 计算 机 是 64 位 就 选择 64 位 ,32 位 就 选择 32 位 即 可 。 

(2) 然后 一 路 安装 就 可 以 了 ,自己 可 以 选择 安装 盘 。 安 装 完 之 后 有 如 图 6-1 所 示 的 
儿 个 程序 。 


3. 使 用 Anaconda Prompt 
Anaconda Prompt 是 Anaconda 的 管理 器 ,读者 可 以 依次 单 击 : 开始 一 所 有 程序 一 
Anaconda, 然 后 单 击 Anaconda Prompt, 如 图 6-2 所 示 。 


本 Anaconda prompt - OO x 


图 6-2 


(1) 我 们 可 以 在 Anaconda command prompt 窗口 中 输入 指令 conda list, 就 可 以 看 到 
安装 时 自 带 的 Python 扩展 ,如 图 6-3 所 示 


| 国 Anaconda Prompt ox 


图 6-3 


很 明显 在 图 6-3 中 ,我 们 看 到 Anaconda 集成 的 强大 安装 包 , 涉 及 计算 及 图 片 处 理 , 还 
有 机 器 学 习 , 对 于 金融 从 业 人 员 来 讲 ,这 些 安装 包 足 够 我 们 使 用 了 。 

(2) 使 用 Conda 来 安装 和 印 载 安装 包 。 同 样 是 在 此 窗口 中 ,分 别 输入 conda install 十 
安装 包 的 名 字 。 这 里 要 注意 的 是 单词 之 间 有 空格 ,然后 回 车 。 一 般 情 况 下 就 是 不 断 输 入 
“y” 或 者 按 Enter 键 就 可 以 了 

比如 ,安装 NumPy 包 , 输 入 的 命令 就 是 : 


conda install numpy 
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单词 之 间 空 一 格 , 然 后 回 车 ,输入 “y” 就 可 以 了 。 
(3) 如 果 读 者 用 Conda install 安装 包 安 装 name 没有 成 功 ,可 以 直接 打开 命令 终端 ， 
用 pip 命令 ,比如 你 需要 安装 TuShare, 就 可 以 使 用 Pip install TuShare。 如 图 6-4 所 示 。 


图 6-4 


因为 我 的 计算 机 上 已 装 了 TuShare 包 , 所 以 会 显示 图 6-4 

为 什么 用 命令 终端 安装 呢 , 因 为 这 样 最 方便 

4. 使 用 Python 

读者 可 以 直接 在 Anaconda Prompt 中 输入 Python( 或 者 依次 单 击 : 开始 一 所 有 程序 
>Anaconda ,然后 单 击 Python) 。 如 图 6-5 所 示 


本 Anaconda Prompt 


Python =- 6 | 
| 
用 


当 读 者 看 到 有 三 个 连续 的 “二 ”就 进入 到 Python 程序 中 了 。 

比如 我 们 简单 互动 一 下 : 输入 3 十 2, 如 图 6-6 所 示 。 

然后 你 就 可 以 看 到 结果 为 5, 这 个 例子 只 是 想 表明 ,Python 相对 简单 直接 ,很 好 入 
门 , 很 直观 ,不 像 学 习 C/C++ 语言 那样 需要 各 种 配置 以 及 头 文件 等 , 写 上 好 几 行 程序 才 看 


醒 Anaconda Prompt - python = DYX 


到 你 要 看 到 的 结果 
当然 ,你 也 可 以 直接 在 命令 


动 Python 程序 ,效果 是 一 样 的 。 
,如 图 6-7 所 示 。 


C:\Program Fi 
thon 3.5.2 |Ana 
(AMD64)] or 


读者 可 能 会 发 现 , 这 样 的 互动 还 是 不 那么 友好 ,那么 还 有 更 友好 的 界面 , 那 就 是 
IPython。 

5. 使 用 IPython 

与 Python 相同 ,读者 在 Anaconda Prompt 中 输入 IPython( 或 者 依次 
所 有 程序 一 Anaconda ,然后 单 击 IPython)。 如 图 6-8 所 示 


第 6 章 ”Python 的 环境 搭建 


搜狗 拼音 输入 法 


我 们 同样 输入 : 3 十 2 ,然后 按 Enter 键 ,如 图 6-9 所 示 


IPython: CUsers/Lee =- OO Xx 


[a 


读者 可 以 看 到 ,这 里 有 提示 In 和 Out, 就 是 输入 和 输出 。 比 如 接 下 来 又 使 
值 的 函数 abs, 直 接 输入 abs(99) ,如 图 6-10 所 示 
读者 如 果 使 用 过 Excel.MATLAB 或 者 其 他 计量 软件 
6. 使 用 Spyder 
- 直 使 用 这 样 的 界面 可 能 读者 还 是 觉得 不 大 习惯 ,那么 我 们 接 下 来 就 学 习 一 下 


Spyder。 


会 发 现 这 个 交互 性 非常 好 。 


Spyder(scientific python development environment) 是 一 个 强大 的 交互 式 Python 语 


图 6-10 


言 开发 环境 ,提供 高 级 的 代码 编辑 .交互 测试 .调试 等 特性 ,支持 包括 Windows、Linux 和 
OS X 系统 。 

读者 可 以 直接 在 Anaconda Prompt 中 输入 spyder( 或 者 依次 单 击 : 开始 一 所 有 程序 
>Anaconda, 然 后 单 击 Spyder)。 启 动 的 时 候 可 能 会 感觉 有 一 点 慢 , 稍 微 等 一 下 就 可 以 
了 ,如 图 6-11 所 示 。 
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可 以 看 到 Spyder 的 界面 设计 和 MATLAB 十 分 地 相似 ,熟悉 MATLAB 的 读者 可 以 
很 快 地 习惯 使 用 Spyder。 

7. 使 用 Notebook 

Jupyter Notebook 目前 已 经 成 为 用 Python 做 教学 、 计 算 、 科 研 的 一 个 


要 工具 。 本 
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@ 


量化 投资 与 Python 语言 


也 


文 介绍 Jupyter Notebook 的 一 些 基 本 用 法 。 
Jupyter Notebook 使 用 浏览 器 作为 界面 ,向 后 台 的 IPython 服务 器 发 送 请 求 ,并 显示 


bh 输入 jupyter notebook( 或 者 依次 单 击 : 开始 一 


读者 可 以 直接 在 Anaconda Prompt 
所 有 程序 一 Anaconda, 然 后 单 击 jupyter notebook) ,如 图 6-12 所 示 。 


画 jupyer notebook 


图 6-12 


同时 ,浏览 器 打开 效果 如 图 6-13 所 示 
“JUPyter 


图 6-13 


然后 , 单 击 右 边 New 下 拉 框 ,选中 Python [conda root] .将 显示 如 图 6-14 所 示 。 
同样 的 ,我 们 可 以 输入 : 3 十 2, 然 后 单 击 上 面 的 抽 , 如 图 6-15 所 示 。 
通过 上 述 操作 ,我 们 对 Anaconda 有 了 一 个 大 概 的 认识 ,读者 可 以 通过 自行 百度 不 断 


地 熟练 使 用 这 些 工 具 。 
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图 6-14 
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图 6-15 


6.2 ”常见 开源 包 介绍 


这 里 我 们 针对 国内 读者 在 金融 行业 中 的 应 用 ,介绍 常见 的 库 。 

1. NumPy 

NumPy(Numerical Python) 是 一 个 开源 的 Python 科学 计算 库 。 使 用 NumPy, 就 可 
以 很 自然 地 使 用 数组 和 和 矩阵。NumPy 包含 很 多 的 数学 函数 ,涵盖 线性 代数 运算 、 傅 里 叶 
变换 和 随机 数 生成 等 功能 。 

2. Pandas 

Pandas 是 基于 NumPy 的 一 种 工具 ,该 工具 是 为 了 解决 数据 分 析 任 务 而 创建 的 。 
Pandas 纳入 了 大 量 库 和 一 些 标准 的 数据 模型 ,提供 了 高 效 地 操作 大 型 数据 集 所 需 的 工 
具 。Pandas 提供 了 大 量 能 使 我 们 快速 便捷 地 处 理 数据 的 函数 和 方法 。 你 很 快 就 会 发 现 ， 
它 是 使 Python 成 为 强大 而 高 效 的 数据 分 析 环 境 的 重要 因素 之 一 。 

3. Matplotlib 

Matplotlib 是 Python 最 著名 的 绘图 库 , 它 提供 了 一 整套 和 MATLAB 相似 的 命令 
API, 十 分 适合 交互 式 地 进行 制图 ,而 且 也 可 以 方便 地 将 它 作为 绘图 控件 ,嵌入 到 GUI 应 
用 程序 中 。 
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量化 投资 与 Python 语言 


4. TuShare 

TuShare 是 一 个 免费 .开源 的 Python 财经 数据 接口 包 , 主要 实现 对 股票 等 金融 数据 
从 数据 采集 、 清 洗 加 工 到 数据 存储 的 过 程 ,能 够 为 金融 分 析 人 员 提 供 快速 ,整洁 和 多 样 的 
便于 分 析 的 数据 ,为 他 们 在 数据 获取 方面 极 大 地 减轻 工作 量 ,使 他 们 更 加 专注 于 策略 和 模 
型 的 研究 与 实现 上 。 考 虑 到 Python Pandas 包 在 金融 量化 分 析 中 体现 出 的 优势 ,TuShare 
返回 的 绝 大 部 分 的 数据 格式 都 是 Pandas DataFrame 类 型 ,非常 便于 用 Pandas/NumPy/ 
Matplotlib 进行 数据 分 析 和 可 视 化 。 


Python 读 取 本 地 数据 


7.1 准备 知识 


1. 一 切 都 是 对 象 

关于 编程 中 的 面向 对 象 ,就 是 把 一 组 数据 结构 和 处 理 它们 的 方法 组 合成 一 个 整体 。 
当 我 们 理解 每 一 个 变量 的 时 候 , 自 然 就 能 想到 它 有 哪些 数据 结构 和 操作 方法 ,最 简单 的 类 
比 就 像 一 个 人 ,具有 通常 的 特征 以 及 通常 的 做 事情 的 方式 。Python 中 的 任何 数值 .字符 
串 数据 结构 、 函 数 .类 、 模 块 等 都 是 对 象 。 

2. 一 些 说 明 

(1) # 符 号 表示 的 是 注释 。 

(2) 字符 串 我 们 用 单 引号 (或 者 双 引 号 ("") 都 是 可 以 的 ,三 引号 ("""“""") 一 般 
用 于 放置 文档 说 明 (docstring) 或 多 行 字符 串 。 比 如 ,我 们 打开 Spyder 的 界面 ,如 图 7-1 
所 示 。 


®D Spyder (Python 3.5) 
Fle Edit Search Source Run Debug Consoles Projects Iools View Help 


口 生 日 史 汪 p> 节 国 名 呈 丘 丘 少 图 加 
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(3) 接 下 来 我 们 演示 全 部 都 用 Jupyter Notebook, 这 样 的 安排 是 方便 演示 。 读 者 可 
以 直接 打开 Jupyter Notebook。 

(4) 我 们 的 演示 强调 的 是 方法 论 ,探索 怎么 去 操作 完成 项 目 , 没 有 很 规范 地 解释 每 一 
个 命令 或 函数 的 操作 。 我 们 的 目的 就 是 建立 一 个 框架 一 个 模型 ,通过 这 样 的 框架 或 者 模 
型 快速 掌握 这 项 技能 。 若 要 让 自己 更 加 精通 , 那 是 需要 不 断 熟 练 的 。 


7.2 本 地 文件 的 读 取 


常用 的 文件 格式 包括 txt、xls/xlsx、json、xml、HDF 以 及 其 他 可 以 转换 成 以 上 格式 的 
数据 文件 。 

1. 读 取 txt 文 件 

读 取 文件 很 简单 ,但 是 我 们 要 思路 清晰 。 一 般 就 是 打开 文件 ,查看 数据 、 关 闭 文件 , 重 
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2. 一 些 说 明 
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(3) 接 下 来 我 们 演示 全 部 都 用 Jupyter Notebook, 这 样 的 安排 是 方便 演示 。 读 者 可 
以 直接 打开 Jupyter Notebook。 

(4) 我 们 的 演示 强调 的 是 方法 论 ,探索 怎么 去 操作 完成 项 目 , 没 有 很 规范 地 解释 每 一 
个 命令 或 函数 的 操作 。 我 们 的 目的 就 是 建立 一 个 框架 一 个 模型 ,通过 这 样 的 框架 或 者 模 
型 快速 掌握 这 项 技能 。 若 要 让 自己 更 加 精通 , 那 是 需要 不 断 熟 练 的 。 


7.2 本 地 文件 的 读 取 


常用 的 文件 格式 包括 txt、xls/xlsx、json、xml、HDF 以 及 其 他 可 以 转换 成 以 上 格式 的 
数据 文件 。 

1. 读 取 txt 文 件 

读 取 文件 很 简单 ,但 是 我 们 要 思路 清晰 。 一 般 就 是 打开 文件 ,查看 数据 、 关 闭 文件 , 重 


虽 


(es) 量化 投资 与 Python 语 


点 就 是 记得 要 关闭 文件 。 这 样 我 们 就 很 容易 想到 代码 怎么 写 。 
(1) 打开 文件 。sh 二 open(G:\pybook\index. txt) ,如 图 7-2 所 示 。 


Fie Edt View Inset Cel Kemel 


Bit+ x 人 mD 人 ev HOC co 


In [1]: sh=open( G:\pybook\index. txt') 


TS Jupyter Untitled Last cneckpont 4 minutes ago (autosaved) 


Widgets Help 


回 


四 | Celoolbar | @ 


图 7-2 


这 里 open 就 是 大 家 容易 想到 的 “打开 ”, 文 件 需要 指明 在 哪个 位 置 ,所 以 需要 通过 一 


个 字符 串 ,说 明文 件 的 位 置 。 


如 果 读 者 输入 “sh”, 单 击 运行 ,就 会 发 现 界面 如 图 7-3 所 示 。 


fs: Ju pyter Untitled Last Checkpoint: 5 minutes ago (: 


File Edt View lInset Cel Kemsl Widgets 


(autosaved) 


Help 


Bt x 人 mn Ty HC co 


|| calroolbs || @ 6 四 


In [1]; sh=open('G:\pybook\index txt') 
In [2]:|sh 
Out[2]: Cio. TextIOWrapper nane=’G:\\pybook\\index. 


[el 


图 7-3 


也 就 是 说 ,sh 是 一 个 对 象 , 我 们 应 该 很 具体 地 
法 。 那 么 sh 到 底 有 哪些 属性 和 操作 方法 呢 ? 最 直 
“.”, 按 下 键盘 上 的 “tab” 键 ,如 图 7-4 所 示 。 


txt，mode=' rencoding=' cp936' > 


说 要 打开 对 象 的 哪个 属性 或 者 操作 方 
接 的 办 法 是 : 输入 “sh”, 然 后 输入 符号 


ee 负 pyter Untitled Last Checkpoint 8 minutes ago (ur 


File Edt View Inset Cal Kemel Widgets 


Bt 个 vy HC Coe 


In [1]: sh=open(G:\pybook\inder, txt ) 
Im [3]: sh 
out[2] TestTOWrspper name=’ C:\\pybook\\index. tt 


同 | 思 || caroobar | @ oo 


nsaved changes) 


Help 


tf ande= ri encoding=’ cp936 > 


sh. flu: 
sh. isatty 
sh. line buffering » 


(2) 查看 数据 。 比 如 我 们 选择 sh. read() ,显示 结果 如 图 7-5 所 示 。 


mf 


sh read 


Dat [39]: ‘num, eode, rams, changey opan, preclose, close high, on, volune, szount \n, 000001, 上 证 指 永 ,0. 96, 3271. 8665, 3268. 9354, 3237. 4471, 3274. 1903, 3232. 2806, 
200583223, 2621. 8405\nl, 000002, 信服 指数, -0. 97, 3426. 037, 3423. 0095, 3389. 9542, 3423. 5144, 3384. 3289, 200163453, 2618. 6761\n2, 000003, 也 股指 多,-0. 27, 3 
50. 2097, 350. 135, 349. 182, 350. 6325, 348. 5734, 419759, 3. 1644\n3, 000008, 综合 指 站 , -0. 87, 2613. 4243, 2811. 7415, 2787. 3602, 2616, 2685, 2760. 5455, 36639364, 
426, 3741\n4, 000009, 上 证 330, -0, 79, 5797. 7085, 5794. 5593, 5745. 0743, 5307. 4479, 5745, 1346, 43212713, 522. 1920\n5, 000010, 上 证 180, -0. 99, 7505. 3842, 7559. 
3586, 7454. 7359, 7571_ 2598, 7470- 2352, 70445381, 712. 5753\n6, 000011 基 全 指数 , -0. 4, 3849. 2142, 3347 8353, 5824 4371, 3552 3377, 53821. 784, 16632663, 341. 
23\n7, 000012, 图 情 指数 , -0. 05, 160. 0978, 160. 0929, 159. 993， 160. 1003 159. 9832. 73493, 0. 7392\n8, 000016, 上 50, -0. 94, 2371. 6054, 2369. 194, 2346. 9602, 237 
3, 5439, 2342. 0196, 30767623, 331. 3074\n9, 000017, 新 综 指 , -0. 97, 2762. 3167, 2759. 8351, 2733. 1681, 2764. 2696, 2723. 7886, 200134595, 2617. 8016\n10, 000300, 
访 深 300, -1. 03, 3435. 3114 3431, 5066, 3445. 3051, 3488. 4953, 3441. 4635, 103755560, 1223. 6852\nl1, 000905, 中 证 500, -0. 92, 6543. 5573, 6543. 3407, 6483. 2463, 6 
555. 5786, 6430. 2914, 73063706, 899. 1115\n12, 399001, 深 证 成 指 , -1. 03, 10632. 045, 10524. 421, 10515. 414, 10650. 455, 10514. 674, 20374886009, 3331. 9337\n13, 3 
99002, 深 志 指 a, -1 03, 12560. 383, 13551. 376, 12422. 599, 12582. 132, 12421. 724, 8783413520, 1299. 4577\n14, 399003, 棘 认 已 扰 ,-0, 22, 6172. 19, 6170. 675, 6157.0 
43, 6182, 356, 5119. 876, 12059120, 1. 1149\nl 5, 399004, 深 证 1008, -1. 23, 4741, 79 4736. 744, 4678. 383, 4747, 046, 4573, 211, 3333434048, 529. 4612\n16, 399005, 中 
小 板 指 , -1, 17, 6942. 964, 6833, 936, 6759. 796, 6855. 162, 6759. 796, 1849937338, 317. 0239\n17, 395006, 创业 板 指 , -0. 87, 1968. 153, 1966, 727, 1949. 661, 1981. 69, 1 
349, 351, 1177127203, 254. 4507\n18, 399003, 中 小 300, -0. 33, 1481. 001. 1430. 639, 1400. 347, 1454. 805, 1406. 847, 4475251777, 682. 3057\n19, 399100, 新 指 数 ,-0 

4. 8929, 204, 3323. 028, 8347. 649, 5951 051, 8846. 403, 19933766559, 3335. 4292\r20, 399101, 中 小 板 寻 ,0.72, 11873_ 881, 11574 507, 1178& 991, 11910. 732, 117 
33. 991, 8665275314, 1453, 8455\n21, 399106, 深 证 综 气 , -0. 31, 2047. 152, 2046. 307, 2029. 729, 2054. 023, 2029. 591, 20374886009, 3331, 9337\n22, 399107, 深 证 入 指 
1 0. 1, 2141. 67, 2140. 794 2123, 399, 2143, 376, 2123. 254, 20350459505, 3380, 0904\n23, 399108, 深 证 指 , -0, 29, 1154. 022, 1153. 403, 1150, 013, 1155. 734 1147 
.714, 24426504, 1. 8433\n24, 399333, 中 小 由 -! 596, 7384. 056, 7433, 229, 7364. 056, 1846937333, 317. 0269\n25, 399606, 创业 板 R, -0. 67, 2036 

43, 2035, 107, 2017. 507, 2050. 051, 2017. 130, 11 


这 里 显示 的 数据 很 多 ,我 们 会 发 现 ,其 实 每 一 行 的 数据 都 是 以 “\n” 结 束 的。 最 后 ,我 
们 需要 关闭 文件 ,因为 如 果 你 不 关闭 文件 ,其 他 操作 方法 就 是 不 可 行 的 。 举 个 例子 ,假设 
没有 关闭 文件 ,然后 你 在 本 地 删除 文件 时 ,就 会 弹出 对 话 框 ,如 图 7-6 所 示 。 


关 型 : 文本 文档 
大 小 : 2.38 KB 
修改 日 期 : 2017/3/19 15:50 


图 7-6 


(3) 关闭 文件 。 使 用 sh. close() ,如 图 7-7 所 示 。 


PE 了 |Pyhon teonda rool 
B+ x D+ vc co 国电 ceroobs @ino 
out[9]:“ nana， change oper, procloae, close, bigh, Jov, volume, smount nl0, 000001, 上 证 据 数 ,-0. 96, 3271. 9665, 3268. 9354, 3237. 4471, 3274. 1903, 3232. 2806, 


200583225, 2621, 3405\n1, 000002, 人 孝 指 才 , -0. 97, 3426. 037, 3423. 0096, 3389. 9542, 3425. 5144, 3384, 53233, 200103463, 2018. 0701\n2, 000003, 呈 股指 败 ,-0. 27,3 
50. 2097, 350. 135, 349. 182, 350. 6325, 343. 5784, 4 ,1544\n3, 000008, 综 合 指数 , -0. 87, 2813. 4248, 2311. 7415, 2787. 3802, 2816. 2635, 2780, 5465, 33839364, 
426. 3741\n4, 000003, 上 证 380, -0. 79, 5797. 7085, 5794. 5599, 5743. 0745, 5807. 4473, 3745. 1346, 43212713, 322. 1926\n5, 000010, 上 iE180, -0. 99, 7505, 3342, 7559. 
9586, 7484. 7359，7571. 2698, 7470. 2352, 70446361, 712. 5753\n6, 000011, 基 多 指数 ，-0. 4 5849. 2142, 5847, 8353, 5824. 4571, 5352. 3577, 5821. 784, 16633663, 341.5 
28\n7, 000012, 国 俩 指数, -0. 06, 160. 0373, 160. 0529, 159.993, 160. 1003, 159. 9832, 73498, 0. 7392\nS, 000015， 上 证 50, -0. 94, 2371. 6054, 2369. 194, 2346. 9602, 237 
3.5439, 2342. 0196, 30767623, 331, 3074\a3, 000017, 寻 综 指 ,-0. 37, 2762. 3167, 2753. 3351, 2733. 1681, 2764 2636, 2726. 7986, 200134655, 2617. 8016\a10, 000300， 
济宁 300, -1. 03, 3435 3114, 3481. 5086, 3445. 8051, 3438. 4369, 3441. 4685, 103755560, 1223. 6862\ni1, 000305, 中 证 500, -0. 92, 6543. 5573, 6543. 3407, 6433. 2463, 6 
555. 5786, 6430. 2914, 73063706, 899. 1115\nl2, 99001, 深 证 成 指 , -1. 03, 10632. 045, 10624. 421, 10515. 414, 10650. 455, 10514 674, 20874866009, 3331, 9337\n13, 3 
99002, 深 成 指 R, -1. 03, 12560. 383, 12551. 376, 12422. 599, 12532. 132, 12 4, 3733415520, 1299. 4677\nl4, 399003, 成 份 瑟 指 , -0. 22, 6172. 19, 6170, 575, 6157.0 
49, 6162. 356, 6119. 976, 12059120, 1, 1143\nl5, 39004, 深 证 1008, -1. 23, 4741. 79, 4735. 744, 4678. 388, 4747. 046, 4676. 211, 3333434048, 529, 4612\al6, 399005, 中 
小 概 指 , -1. 17, 6342. 984, 6839. 936, 6759. 796, 6855. 162, 6759. 796, 1545937338, 317. 0289\r17, 399006, 创业 板 指 ， ,1968. 153, 1966. 727, 1949. 661, 1981. 69, 1 
949. 351, 1177127203, 254. 4567\n18, 399008, 中 小 400,--0.33, 1431. 601, 1480. 639, 1456. 847, 1454. 805, 1465. 847, 4475251777, 632. 6057\n1, 399100, 新 指 娄 , -0 
54, 8929. 204, 3923. O25, 5847. 649, 3951. 051, S546. 403, 19933766989, 3336. 4292\n20, 399101, 中 小 闻 纤 , -0. 72, 11878. 881, 11374. 507, 11788. 991, 11910, 732, 117 
88. 991, 8665375814. 1453. 8455\n21, 399106, 深 证 兰 指 , -0. 81, 2047. 152, 2046. 307, 2029. 729, 2054. 023, 2029. 591, 20374886003, 3331, 5397\n22, 399107, 深 证 A 指 
,~0. 81, 2141. 667, 2140, 784, 2123, 399, 2148. 876, 2123. 264, 20330459505, 3380. 0904\a23, 399108, 深 证 忆 指 , -0. 28, 1154. 022, 1153. 403, 1150, 013, 1155. 724 1147 

14, 24420504, 1. 3433\n24, 399333, 中 小 板 R, -1. 1 925, 7471. 556, 7384. 050, 7438. 229, 7384. 056, 1348937338, 317. 0239\n25, 399006, 记 业 大 R, -0. 87, 2036 
643, 2035. 167, 2017. 507, 2050. 651, 2017. 196, 1177127203, 254. 4567\e 


本 [4]: | sh.close 
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量化 投资 与 Python 语言 


2. 读 取 CSV 文件 

CSV(comma separated values) 以 纯 文本 形式 存储 的 表格 数据 (以 逗号 作为 分 隔 符 )， 
常 第 一 行为 列 名 。 

(1) 打开 文件 : fp 二 open("G:\pybook\index. csv")。 

(2) 查看 数据 : fp. read() ,如 图 7-8 所 示 。 


[TJUPVYTeT Untited Las erectpoin 4 hours son nsaed changes) | 
外 Pie Edt View Insa Cel Kemel Wiets Hep |Python lconda root] 中 


[a +x a m+ vn lo jlcaeokber a slo 


propen (0: \prbook\inder. car”) 


In [11]: | 名 read0 


Out[11]; ', code, pane, change, opem, preclose, close, high, low volune, zaount va0, 000001, 上 证 指 抢 -9.96, 3271, 9665, 3269.3954 2237. 4471, 2274 1903, 3232. 2806, 200 
599223, 2621. 5405\el, 000002, A 校 指针 ,0. 97, 1426. 097, 3423. 0036. 3399. 9542, 3428.5144. 3364. 5269, 200163463, 2518, 8761\a2, 000003, BK, -0, 27, 350， 

2097, 350. 135, 349, 182, 350, 6325, 348, 5784, 419759, 3, 1644\a3, 000003, 综合 指 吉 , -0. 87, 26513, 4248 2811 7415, 2787, 3902, 2816, 2635, 2730. 5465,38939364. 426 

374L\n, 000009, 上 证 350， 7085, 5794. 5599, 5743. 6743, 5807, 4479, 5745, 1345, 43212713, 522. 1926\n5, 000010, 上 证 180, -0. 99, 7565. 3942, 7559. 853 

5, 7484 1359, 7571, 2693, 7470, 2352, 70446331, 712. 5753\n5, 000011, 基 例 指 六 -0, 4 5849. 3142, 5847. 5353, 5824. 4571, 5852, 3577, 5821. 794, 16532663, 341, 528\ 

a7) 000012, 国债 指 披 , -0. 06, 160. 0973, 150. 0329, 159. 993, 160, 1003, 159. 9532, 73493, 0, 7392\n8, 000016, 上 证 50, -0, 94, 2371. 6054, 2369, 194, 2346. 9502, 2375. 5 

439, 2342. 0136, 30767623, 331. 3074\n9, 000017, 新 缔 指 , -0. 97, 2762. 3167, 2759. 8351, 2733. 1631, 2754. 2595, 2725. 7356, 200134595, 2617. 3016\n10, 000300, 沪 深 
300, -L 03, 3485, 3114, 3451, 5066, 3445, 3051, 3433. 4909, 3441, 4685, 103755560, 1223. 6892\nl1, 000905, 中 证 500, -0, 92, 6543. 5573, 6343. 3407, 6453, 2463, 6555, 


5786, 9450.2914 73063706, 339. LL15\al2, 399001 深 证 成 指 -1 03, 10632. 045， 10624.421 10515.413999996693, 10650.455, 10514.073999999993 20374586008, 3 
331. 9337\al3, 399002, 染 也 失 , 3 12422. 593399999968, 12582. 132, 12421. 723999939998, 3788418520, 1299. 4677\n4, 399003, 成 从 
指 ,-0.22,61 12059120, 1 1143\n15, 399004 深 | 正 100 -1. 23,4741. 79.4736. 744000000001，4678 .388 ,4 


TS.210999999999, 3333434043, 523 4612Vr16, 399005, 中 小 概 指 , -1 17, 6342. 934, 6339. 938, 6753. 793999999993, 6855 161999993999, 0759 
795993999999, 1946937336, 317. 0239\n17, 393006, 创业 板 指 -0. 87, 1968. 1523999933996, 1966. 727, 1949. 661, 1961. 65, 1949. 351, 1177127203, 254. 4507\n13, 399 
008, 中 小 300, -0. 93, 1431. 601, 1430. 639, 1466. 6470000000002, 1484. 605, 1466. 8470000000002, 4475251777, 682. 6057\n19, 399100, 新 指 数 , -0., 84, 8929. 204, 89 
23. 909, 0847. 649, B51. 051, 846, 403, 19933766989, 3336.4292\n20. 599101, 中 项 寺 ,- .6861000000001, 11874 507, 11788. 991000000002, 11910, 732， 
2023, 729, 2054 0229999935997, 2023. 5910000000001, 203745860 

3 ,3380. 304\n23,399103, 深 证 已 指 , -0. 23, 1154. 022 
7384. 056, 7488. 229, 1334. 056, 1845937328, 317. 02 
50000000001, 1177127203, 254 4567\a” 


09, 39391. 9937\n22, 2991 
,1153, 403, L160, 013, 11 
的 25,399606, 全 村 
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(3) 关闭 文件 : fp. close() 。 

其 实 ,读者 发 现 读 取 txt 文件 和 csv 文件 基本 上 是 一 样 的 ,我 们 可 以 这 么 看 ,凡是 本 地 
文件 ,我 们 都 可 以 把 txt 文件 和 csv 文件 看 成 一 样 , 用 相同 的 操作 方法 。 

3. 读 取 Excel 的 数据 

如 果 我 们 仍然 按照 上 面 这 个 步骤 ,会 遇 到 一 些 问题 ,如 图 7-9 所 示 。 


二 川 Pyter Untitled Last checkpoint 4 hours ago (unsaved changes) 


Fie Edt View Inset Cal Kemel Widgets Help 


EEAEIEILIEIRAICILIA 加 | Croobar [ano 

FO os OH 6 9, VE Oe, OOS FEIT 06 Oo WH O40, lawuaiav 4 410 ML FUum, tv te 
747. 045999999999, 4678. 210999999999, 3333434048, 529. 4612\n16, 399005, 中 小 板 指 , -1. 17, 6842. 984, 6839. 936, 6759.| 
795999999999, 1848937338, 317. 0289\n17, 399006, 创 业 板 指 , -0. 87, 1968. 1529999999998, 1965. 727, 1949. 661, 1981. 69| 
008, 中 小 300, -0. 93, 1481. 601, 1480. 639, 1466. 3470000000002, 1484. 805, 1456. 8470000000002, 4475251777, 682. 8057\ 
23. 028, 8347. 649, 8951. 051, 8346. 403, 19933766989, 3336. 4292\n20, 399101, 中 小 板 综 , -0. 72, 11878. 881000000001, 11: 
11788. 991000000002, 8665275814, 1453. 8455\n21, 399106, 深 证 综 指 , -0. 81, 2047. 152, 2046. 307, 2029. 729, 2054. 02299 
09, 3381, 9337\n22, 399107, 深 证 A 指 , -0.81, 2141. 667, 2140. 784, 2123. 399, 2148. 876, 2123. 264, 20350459505, 3380. 09d 
，1153.403, 1150. 013, 1155. 724, 1147. 714, 24426504, 1. 8433\n24, 399333, 中 小 板 R, -1. 17, 7474. 925, 7471. 596, 7384. 05| 
89\n25, 399606, 创 业 板 R -0. 87, 2036. 6429999999998, 2035. 1670000000001, 2017. 507, 2050. 651, 2017. 1860000000001, 


In [12]: | fp=open("G:\pybook\index. xlsr") 


In [13]: fp.read 


UnicodeDecodeError Traceback (aost recent call last) 
《ipytbon-input-13-7310eeaf713c》in <aodule> 0) 
> 1 fp.read0) 


UnicodeDecodeError: 'gbk’ codec can't decode byte Oxe3 in position 58: illegal miltibyte sequence 
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但 是 ,本 书 就 不 介绍 读 取 Excel 格式 的 文件 了 ,理由 是 一 方面 我 们 可 以 把 Excel 文件 
转换 成 CSV 文件 ; 另 一 方面 也 有 读 取 Excel 文件 的 一 些 第 三 方 包 ,而 且 Excel 太 庞大 了 。 

4. 读 取 其 他 文件 

至 于 读 取 json 和 HDF 等 文件 ,我 们 就 不 直接 介绍 了 , 感 兴趣 的 读者 自行 百度 搜索 进 
行 学 习 , 或 者 遇 到 需要 解决 的 问题 ,再 自行 查 资料 。 


第 7 章 Python 读 取 本 地 数据 


8.1 基本 数据 类 型 


业内 有 一 句 话 ,一 般 的 程序 员 考 虑 的 是 代码 ,高 手 关注 的 是 数据 结构 以 及 它们 的 关 
系 。 本 章 介 绍 Python 的 基本 数据 类 型 和 数据 结构 。Python 解释 程序 本 身 自 带 丰 富 的 数 
据 结构 ,NumPy 和 其 他 库 又 增添 了 许多 有 价值 的 数据 结构 。 

Python 是 一 种 动态 型 语言 ,也 就 是 说 ,Python 解释 程序 在 程序 运行 的 时 候 推 知 对 象 
的 类 型 。 静 态 类 型 的 语言 是 必须 在 编译 前 就 清楚 对 象 类 型 。 

1. 整数 

Python 最 基本 的 数据 类 型 毫 无 疑问 就 是 整数 了 ,如 图 8-1 所 示 。 


二 JU pyte 『 Untitled1 Last checkpoint a few seconds ago (unsaved changes) 


File Edit View Insert Cell Kemel Widgets Help 
+ x mp + v HC co 园 |®|| caroobar 
In [1]: |a=100 
type a 
Out[1]; int 


[ee 


图 8-1 


函数 type 是 系统 提供 的 ,我 们 把 变量 输入 给 type, 然 后 type 就 告诉 我 们 该 变量 的 数 
据 类 型 。 

记 住 一 句 话 “Python 中 ,一 切 都 是 对 象 "。 对 于 刚 定 义 的 简单 对 象 也 是 有 操作 方 
法 的 。 

一 般 来 讲 一 个 对 象 可 能 有 很 多 方法 ,我 们 完全 没 必 要 去 记 住 这 些 方法 ,一 般 就 是 前 面 
说 的 ,输入 一 个 点 “.”, 然 后 按 tab 键 , 就 可 以 看 到 显示 的 所 有 方法 了 ,如 图 8-2 所 示 。 

Python 的 特点 之 一 就 是 整数 可 以 任意 大 ,Python 处 理 这 些 数字 完全 不 是 问题 ,当然 
从 技术 上 讲 , 这 是 一 个 很 大 的 对 象 。 例 如 ,考虑 围棋 的 各 种 可 能 性 为 2*361。 

注意 : Python 中 ,我 们 用 的 是 2*x 361, 而 不 是 2^361, 如 图 8-3 所 示 。 

还 需要 注意 的 是 ,int 的 运算 结果 返回 不 一 定 是 int 对 象 。 这 个 有 了 时候 可 能 不 是 那么 
容易 被 发 现 或 者 难以 检查 到 错误 ,如 图 8-4 所 示 。 

然而 ,如 图 8-5 这 种 情况 就 是 读者 需要 注意 的 。 


> 一】 upyter Untitled1 Last Checkpoint: 5 minutes ago (unsaved 


Fie Edt View Inset Cel Kemel Widgets Help 


B+ x 人 mM vy HC co vs 
In [1]: a=i00 
type(a) 
Out[1]: int 


a conjugate 
a. denominator 
a. from bytes 


图 8-2 
In [2]: | 299361 
0 ，469708518554766645577896193578674054751365097816639741 人 14551943084418050229216336927397998789537406063969952| 
图 8-3 
ma rm: [0 
out[ 习 :8 
| Im [ 
图 8-4 
Im 【101: | 3/5 
oD0l: 98 
| me 
图 8-5 


如 果 需 要 得 到 的 结果 还 是 int 型 ,那么 需要 使 用 *//”, 如 图 8-6 所 示 。 


I [i0]: M5 


antio]: 0.6 


mm [I]: M/s 
Ostlil]: 0 


2. 浮 点 型 
浮 点 型 是 我 们 最 常用 到 的 类 型 。 
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(1) 如 果 我 们 需要 使 用 浮 点 型 ,就 可 以 在 整数 后 面 输入 “.”, 如 图 8-7 所 示 。 


mm Ta: [b=100, 
type 昌 


Out[12]: float 


图 8-7 


当然 也 可 以 直接 使 用 float 函数 ,如 图 8-8 所 示 。 


了 12]: | bel00. 
type lb) 

Our[12]: iloar 

mm 19]: [floar(100) 
type x 

Ous[13]: loat 


图 8-8 


(2) 既然 是 浮 点 数 , 也 就 涉及 精确 度 的 问题 。 举 个 例子 ,如 图 8-9 所 示 。 


图 8-9 


读者 可 能 觉得 很 奇怪 ,有 一 些 浮 点 数 相 加 符合 我 们 的 预期 结果 ,有 一 些 就 不 对 。 

其 实 ,出 现 上 述 结 果 的 原因 是 浮 点 数 在 计算 机 内 部 是 通过 二 进 制 形 式 表示 的 ,也 就 是 
说 一 个 近似 表示 ,这 就 会 导致 结果 不 精确 。 

由 于 这 个 问题 在 金融 行业 非常 重要 ,有 时 候 必须 保证 数值 的 精确 (至 少 尽 可 能 达到 最 
佳 ) 。 这 个 在 加 总 一 组 数量 很 多 的 数值 时 就 显得 很 重要 了 。 在 这 种 情况 下 , 某 个 种 类 或 者 
精度 的 表示 误差 可 能 汇集 起 来 ,造成 和 原始 值 存在 一 个 显著 误差 。 

肯定 也 有 解决 此 问题 的 方法 。 下 面 我 们 需要 了 解 Decimal 模块 ,该 模块 为 浮 点 数 提 
供 了 任意 精度 的 对 象 ,以 及 使 用 这 些 数 值 时 处 理 精度 问题 的 多 个 选项 。 

第 一 步 : 导入 Decimal 模块 ,如 图 8-10 所 示 。 

import decimal 

from decimal import Decimal 


In [1]: impert decimal 
from decimal imparr Dectral 


了 [ ]: 


图 8-10 


第 二 步 : 了 解 默认 的 精度 位 数 ,如 图 8-11 所 示 。 


In [19]: | decinal. setcontert 
Dut[19] ， Context (prec=23, rounding=ROUND HALF_EVEK, Enir=-398999, Erex=998993, caoitals=l, clarp-0, flass=[], traps=[Invalidoperation DivisionBvZero 
Overflor]) 


i | 


图 8-11 


这 里 我 们 只 关注 28 这 个 数字 ,就 是 说 默认 的 精度 是 28 位 。 举 个 例子 ,如 图 8-12 
所 示 。 


In [22]: Deciml (1) /Decinsl (8) 


In [23]: a 


ur [a3]: pecimal C0. HN 


[ei ] 


图 8-12 


而 如 果 我 们 不 使 用 这 个 模块 的 话 ,也 就 是 说 ,一 般 情 况 下 ,Python 运行 的 平台 精度 标 
准 是 15 位 的 精度 ,如 图 8-13 所 示 。 


In [24]: 1/9 


ott2a]: ONLNNDL 


mm: 


图 8-13 


第 三 步 : 确定 要 使 用 的 精度 ,如 图 8-14 所 示 , 结 果 就 是 保留 小 数 点 后 两 位 数字 。 


In [25]: | decinal. gatcontert 0.pree = 2 
Im [26]: | d=Decinal (1) /Decime] (9) 


I (27: ld 
Out[27]: Deciamalf 0. 11 ) 


[st 


图 8-14 


3. 字符 串 
前 面 介绍 了 整数 和 浮 点 数 , 现 在 我 们 就 可 以 讲解 一 下 文本 了 。Python 就 是 表示 文本 
的 ,如 图 8-15 所 示 。 


图 8-15 


如 前 面 所 说 的 ,对 于 字符 串 我 们 可 以 使 用 单 引号 或 者 双 引 号 。 字 符 串 也 有 很 多 种 表 
示 方 法 ,如 图 8-16 所 示 。 
比如 第 一 个 函数 ,表示 的 是 将 第 一 个 词 转换 成 大 写 ,如 图 8-17 所 示 。 
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Out[27] :| Str. casefold 

str center 

In [28]:|str. count 
str encode 


str. endswith 


In [29] 习 tr oxpandtabs 
Out[29] :jstr. find 
str. format 

| mm [ I fermt mp 


图 8-16 
In [230]; | 
outaol: ， 
ml[] 

图 8-17 


其 他 的 ,读者 可 以 自行 百度 进行 学 习 了 解 , 特 别 是 在 解决 具体 问题 的 时 候 。 


8.2 基本 数据 结构 


一 般 的 原则 是 ,数据 结构 是 包含 其 他 对 象 的 对 象 。Python 提供 的 数据 结构 包括 以 下 


儿 种 ， 
元 组 (tuple) 。 任 意 对 象 的 集合 ,只 有 少数 可 用 的 方法 。 
列表 (list)。 任 意 对 象 的 集合 ,有 许多 可 用 的 方法 。 
字典 (dict)。 键 - 值 存储 对 象 。 
集合 (set)。 其 他 独特 对 象 的 无 序 集合 对 象 。 
1. 元 组 


元 组 是 一 种 高 级 的 数据 结构 ,但 是 其 应 用 还 是 相当 的 简单 有 限 ,形式 是 使 用 () 定 义 对 


象 , 如 图 8-18 所 示 。 


和 [311: (hs "bello") 
type 


ous[31]: tuple 


图 8-18 


甚至 ,我 们 还 可 以 不 需要 () ,直接 使 用 逗号 *,”, 如 图 8-19 所 示 。 


I 1: th,3.4. “hello) 
trpe(t) 


Out [Bl]: tuple 


图 8-19 


和 Python 中 几乎 所 有 的 数据 结构 相似 ,元 组 有 内 建 的 索引 ,利用 索引 可 以 读 取 元 组 
的 单个 元 素 或 者 多 个 元 素 。 这 里 需要 记 住 的 是 Python 使 用 的 是 从 0 开始 编号 的 ,这 一 点 
和 MATLAB 不 一 样 ,MATLAB 是 从 1 开始 的 。 比 如 上 面 的 第 三 个 元 素 在 索引 位 置 2 上 
面 ,如 图 8-20 所 示 。 


In [30]: |t-l,3.4, "hello” 
pa 
Out[32]: tuple 


Im [39]: |el2 


Out[39]: ‘bello’ 


图 8-20 


我 们 看 到 元 组 的 方法 很 少 ,如 图 8-21 所 示 。 


| ml 
fe | 


图 8-21 


可 能 读者 会 感到 很 奇怪 ,为 什么 需要 元 组 这 个 对 象 呢 ?这 里 我 们 先 了 解 列表 后 再 一 
起 做 个 比较 。 

2. 列表 

与 元 组 相 比 ,列表 类 型 的 对 象 更 灵活 、 更 强大 。 从 金融 的 角度 看 ,许多 工作 只 能 用 列 
表 对 象 完成 ,比如 存储 股票 的 开 高 低 收 数据 。 列 表 对 象 通过 方 括号 定义 ,基本 功能 和 行为 
与 元 组 类 似 , 如 图 8-22 所 示 。 


:| Earlio] 
pe) 
ou lisr 


I [35]:|t2 
ut [35]: “hello 


m [1;:|| 


图 8-22 


可 以 看 到 ,列表 的 方法 有 多 种 ,如 图 8-23 所 示 。 


In [34] 3 
Out[34] lt. 


In [35] 站 ta 


Out[35] st. 


Cs 


图 8-23 


比如 添加 数据 ,如 图 8-24 所 示 。 
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I [36]: tappend([3,45]) 


In (37: 上 


Oust3r]: [1, $.4 ’hello’, [3, 4 5]] 


图 8-24 


比如 插入 数据 ,如 图 8-25 所 示 。 


In [38]: | + inaert(l -Inaert 


Out[38]: [1, "lnsere ， 3.4, "hello', [3, 4 5]] 


图 8-25 


上 面 演示 的 是 在 第 1 个 索引 的 前 面 插入 “insert”, 移 除数 据 如 图 8-26 所 示 。 


In [399]: trenove("hello") 
+ 


our[39]: [1, ‘Tnsert’, 3.4 [3, 4 5]] 


图 8-26 


比如 切 分 数据 或 者 说 切片 ,这 里 我 们 更 愿意 说 切 分 数据 。 切 分 数据 的 意思 是 把 数据 
集 分 解 为 几 个 部 分 ,这 个 在 金融 数据 分 析 中 会 经 常用 到 ,如 图 8-27 所 示 。 


I 42): | #1:9 
our[42]: 【Insert', BA 


图 8-27 


这 里 需要 注意 的 是 方 括号 的 定义 , 它 是 一 个 左 闭 右 开 的 区 间 , 也 就 是 说 从 左边 索引 开 
始 , 到 右边 索引 结束 ,但 是 不 包括 右 索引 的 对 象 。 如 上 图 所 示 : 左边 索引 的 是 “insert”, 慧 
边 索 引 3 的 应 该 是 [3,4,5], 但 是 不 包括 这 个 索引 的 对 象 , 这 个 需要 注意 。 

总 结 一 下 ,关于 列表 的 常见 操作 方法 如 表 8-1 所 示 。 


表 8-1 

方 法 参数 返回 或 结果 
t[]=x [| 用 x 替代 第 i 元 素 
append (x) 在 对 象 后 附加 x 
count (x) 对 元 素 x 统计 出 现 的 次 数 
insert (ix) 在 索引 i 之 前 插 人 元 素 x 
Temove (iD 删除 索引 为 i 的 元 素 
Teverse (x) 所 有 项 目的 逆向 顺序 


读者 可 能 会 问 元 组 和 列表 有 什么 区 别 呢 ,为 什么 要 这 么 设计 呢 ? 这 里 的 差异 就 是 列 
表 是 可 变 的 ,元 组 是 不 可 变 的 。 这 就 类 似 于 一 个 Excel 表格 的 行 和 列 , 每 列 基本 上 保持 不 
变 ,变动 的 更 多 的 是 行 数 的 变化 。 这 里 我 们 可 以 简单 地 理解 为 :list 类 似 于 Excel 表格 的 
某 一 列 数据 ,元 组 类 似 于 第 一 行 的 列 标签 或 每 一 行 代表 的 数据 。 


3. 字典 


字典 对 象 就 是 按照 键 码 读 取 的 数据 字典 ,也 是 一 种 可 变 序列 。 字 典 用 的 是 大 括号 ,如 


图 8-28 所 示 。 


In [060]: dt=[ pene”:" 二 娃 ",” 
此 


Dut[501: fa 


图 8-28 


从 上 面 的 例子 可 以 看 到 字典 的 对 象 是 没有 顺序 的 ,如 图 8-29 所 示 。 


a eopy 机 
dt, fromkeys 

dt. get 

dt, itens 

dt, keys 

dt. pop 

dt, popitem 

dt. setdefault 


ountry' : ’ china’, ’nase’: * 


字典 的 方法 有 多 种 ,如 图 8-30 所 示 。 


In [62]: 


Out[62] 


In [63]: 
Qut[63]: 


In 


[64]: 
out[64] : 


dt.keys() 


: dict_keys([’ country’, ’age’, 'name’ ]) 


dt values() 
dict_values([" china’ ，' 18' ，’ 二 娃 ']) 
dt “age” 


19’ 


4. 集合 


图 8-30 


这 种 数据 结构 没有 多 大 用 处 ,或 者 我 们 做 金融 行业 的 可 能 用 得 不 多 。 不 过 ,集合 的 好 
处 是 可 以 去 掉 列表 对 象 中 的 重复 元 素 , 如 图 8-31 所 示 。 


In [65] 


| 


set (rer) 


图 8-31 


5. 控制 结构 
这 里 的 控制 结构 本 身 ( 这 里 只 介绍 for 循环 ) 就 应 该 专门 讨论 ,但 是 在 Python 中 ,最 
适合 在 列表 对 象 基础 上 进行 介绍 。 这 是 因为 循环 一 般 来 说 都 是 在 列表 对 象 上 进行 的 ,如 


图 8-32 所 示 。 
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图 8-32 


这 里 的 循环 具有 很 高 的 灵活 性 ,需要 注意 的 是 没有 大 括号 等 ,在 for 循环 中 第 二 行 有 
缩 进 (空白 行 ) 。 

在 Python 中 ,可 以 在 任意 列表 对 象 上 循环 ,不 管 这 些 对 象 是 什么 。 

6. 定义 函数 

在 Python 中 ,定义 一 个 函数 要 使 用 def 语句 ,依次 写 出 函数 名 、 插 号 、 括 号 中 的 参数 
和 冒号 。 然 后 ,在 缩 进 块 中 编写 函数 体 , 函 数 的 返回 值 用 return 语句 返回 。 

举 个 简单 的 例子 ,考虑 返回 输入 z 的 平方 的 函数 ,如 图 8-33 所 示 。 


I [45]: def ft 
return x 


9 


out[45]: 1 


图 8-33 


请 注意 ,函数 体内 部 的 语句 在 执行 时 ,一 旦 执行 到 return 时 ,函数 就 执行 完毕 ,并 将 
结果 返回 。 因 此 ,函数 内 部 通过 条 件 判 断 和 循环 可 以 实现 非常 复杂 的 多 辑 。 

如 果 没 有 return 语句 ,函数 执行 完毕 后 也 会 返回 结果 ,只 是 结果 为 None。 

return None 可 以 简写 为 return。 

7. 过 滤 、 映 射 和 归纳 

Python 提供 一 些 用 于 函数 式 编程 支持 的 工具 .也 就 是 在 列表 对 象 应 用 某 个 函数 。 这 
些 工 具 包括 过 滤 .映射 和 归纳 等 。 

(1) 熟练 掌握 lambda 函数 

首先 ,要 明白 lambda 表达 在 Python 中 是 作为 一 个 匿名 函数 的 构造 器 而 存在 。 其 
次 ,要 明白 lambda 表达 式 的 常用 场景 是 lambda 表达 式 对 应 函数 的 使 用 次 数 非常 有 限 ( 因 
此 ,没有 必要 专门 定义 一 个 非 匿 名 函数 ), 同 时 保证 了 代码 的 简洁 性 。 编 程 中 提 到 的 
lambda 表达 式 ,通常 是 在 需要 一 个 函数 ,但 是 又 不 想 费 神 去 命名 一 个 函数 的 场合 下 使 用 ， 
也 就 是 指 苏 名 函数 。 在 用 Python 中 不 得 不 涉及 lambda 函数 ,我 们 可 以 直接 地 理解 为 临 
时 的 一 个 函数 , 先 举 个 例子 ,如 图 8-34 所 示 。 


mm [40]: | rerlambde x:xe*2 
ret 12 


out[as]: 144 


图 8-34 


从 上 面 的 例子 中 可 以 看 到 ,lambda 的 结构 就 是 自 变量 ,然后 冒号 ,后 面 提供 关于 自 变 
量 的 一 个 函数 关系 ,上 面 的 例子 显示 的 是 关于 z 的 平方 关系 。 

lambda 匿名 函数 经 常 被 用 到 filter() .map() ,reduce() .sorted() 函数 中 ,这 些 函 数 的 
共同 点 是 均 需 要 函数 型 的 参数 ,lambda 表达 式 正 好 适用 。 举 个 例子 ,如 图 8-35 所 示 。 


I 49 ED) 
se 


Out [491: 《map at 0z20433752940》 


In [60]; | ret=aapflaabda x:xrr2, ranseft0)) 
list ret 


or[501， £0, 1, 4, 9, 10, 25, 36, 49, 64, 31 


图 8-35 


上 面 的 例子 中 ,对 lambda 函数 应 用 于 range(10), 这 里 需要 注意 的 就 是 前 面 说 的 
Python 中 一 切 皆 对 象 ,返回 的 结果 就 是 一 个 对 象 ,如 果 我 们 直接 看 不 到 结果 ,但 是 我 们 可 
以 通过 转换 成 列表 进行 查看 。 

(2) 重要 的 range() 函 数 

比如 我 们 需要 生成 1 一 100 的 一 个 自然 数列 , 那 我 们 最 好 利用 range 函数 ,如 图 8-36 
所 示 。 


In [53]: | rengedl,5) 


In [54]: | liat rangell,d) 


图 8-36 


从 图 8-36 可 以 看 到 ,range 函数 返回 的 也 是 一 个 对 象 ,如 果 需 要 看 结果 ,我 们 需要 转 
换 成 list 对 象 。 在 Python 中 ,大 家 最 熟悉 的 可 能 就 是 list 对 象 了 。 

另外 ,大 家 看 到 的 也 是 括号 里 面 显示 的 是 一 个 左 闭 右 开 的 数列 (1,5) 显 示 的 是 1,2， 
3,4, 不 包括 5。 

(3) filter() 函数 

如 图 8-37 所 示 。 


In [55]: rer=filter(lamhda :20, range (1, 10)) 
list ret 


or[55]: [2, 4 6, 3] 


图 8-37 


filter 函数 的 作用 是 从 列表 对 象 中 筛选 出 符合 条 件 的 对 象 , 比 如 上 述 例子 就 是 从 1， 
2,3,4,5,6,7,8,9 中 选 出 偶数 ,结果 为 2,4,6,8。 

(4) map0 〇 函数 

如 图 8-38 所 示 。 

map() 函数 的 作用 是 对 list 对 象 进行 对 错 的 判断 ,符合 条 件 的 返回 True, 错 误 的 返回 
False。 
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| 1 toy: i 


Out[56]; [alse, True, Felse, True, Felse, True, False, Truae, False) 


图 8-38 


(5) reduce() 函 数 
如 图 8-39 所 示 。 


/ 了 [59] 


out[59]; 多 


from funetools import reduee 
Tet=reduce (lambda x y:x+y, range(, 10)) 


图 8-39 


这 里 特别 需要 注意 的 是 关于 reduce() 函数 需要 引入 functools 模块 。 如 from 
functools import reduce。 

同时 ,reduce() 函 数 的 作用 是 针对 列表 对 象 的 所 有 元 素 应 用 一 个 函数 ,返回 一 个 值 ， 
这 里 就 不 需要 list() 函数 ?了 ,如 图 8-40 所 示 。 


In [665]; | rat 2 了 罗 风量 生生 生生 到 机 5 本 本 
= ) 


I [6l:|s 
Out[eg]， fb 2 3, % 5) 


图 8-40 


@ list() 是 Python 里 面 的 数据 结构 和 列表 函数 。 


NumPy 基础 


NumPy 是 Python 的 关于 高 性 能 科学 计算 和 数据 分 析 的 基础 包 。 最 重要 的 是 ,提供 
了 矩阵 运算 的 功能 。 其 实 ,list 已 经 提供 了 类 似 于 和 矩阵 的 表示 形式 ,不 过 NumPy 为 我 们 
提供 了 更 多 的 函数 。 我 们 主要 是 介绍 NumPy 的 数组 和 和 矩阵 计算 。 


9.1 NumPy 数组 


9.1.1 数组 对 象 
先 举 个 例子 ,如 图 9-1 所 示 。 


In [69]: | impert mmpy as op 
ret=np. arange (10) 


Our[69]: array([0, 1, 2, 3, 4 5, 0, 7, 8, 9) 


这 里 需要 注意 的 有 以 下 几 点 : 

(1) 导入 NumPy。 我 们 通过 这 样 的 形式 进行 导入 : import numpy as np。 这 里 就 相 
当 于 把 numPy 简写 成 np。 

(2) 这 里 返回 的 结果 是 array, 读 者 可 能 注意 到 这 里 用 了 np. arange() 。 

range() 琢 数 和 arange() 函 数 有 什么 区 别 呢 ? 

记 住 一 个 最 简单 的 区 别 。range() 不 支持 步 长 为 小 数 ,np. arange() 支 持 步 长 为 小 数 ， 
如 图 9-2 所 示 。 


[17]: G0) 
list(range(1, 10,2)) 


[17]: [1, 3, 5, 7, 9] 


[18]: range 1, 10,0.2 


TypeError Traceback (most recent call last) 
《ipython-input~18-cab7bl13a5a94》in Caodule>() 
一 一 》1 range(l.1 


TypeBrror: “float’ object cannot be interpreted as an integer 


图 9-2 


我 们 再 看 NumPy 中 的 arange 函数 ,如 图 9-3 所 示 。 
Python 中 的 list 是 Python 的 内 置 数据 类 型 ,NumPy 的 数组 和 list 之 间 有 什么 区 
别 呢 ? 


量化 投资 与 Python 语言 


In [19] : import numpy as np 
np. arange 1,. 10. 0. 2 
PH :9 
4 42， 44 46, 4.8, 5. ， 5.2, 
6.2, 6.4, 6.6, 6.8, 7. , 7.2, 7.4. 
8.4, 8.6, 8.8, 9. , 9.2, 9.4, 9.6, 
图 9-3 


简单 地 说 就 是 list 中 的 数据 类 型 不 必 相 同 , 可 以 是 任何 对 象 ;而 array 中 的 数据 类 型 
必须 全 部 相同 。 这 里 我 们 最 好 这 么 去 理解 ,array 其 实 是 更 适合 去 解决 矩阵 计算 而 设置 
的 ,比如 我 们 知道 的 矩阵 里 面 每 个 元 素 都 必须 是 相同 的 类 型 ,而 np. arange() 表 示 的 就 是 
一 个 矩阵 ,我 们 可 以 看 作 多 维 数组 ,也 可 以 看 作 和 矩阵 ,当然 矩阵 其 实 是 多 维 数组 的 一 个 子 
类 。 看 作 是 矩阵 ,很 多 操作 方法 可 能 会 比较 好 理解 。 


9.1.2 创建 多 维 数组 


创建 一 个 简单 的 多 维 数组 。 
这 里 可 以 看 到 ,我 们 创建 了 一 个 多 维 数 组 。Shape 属性 显示 的 可 以 看 成 是 一 个 2 行 
4 列 的 矩阵 ,如 图 9-4 所 示 。 


our[72]: arrarf[[l，2，3， 4], 
[5, 6 7, 91) 


In [73]: arr shape 
Out[73]: @ 区 


图 9-4 


大 家 可 以 看 到 arr 的 方法 是 很 多 的 ,如 图 9-5 所 示 。 


图 9-5 


我 们 通过 解决 具体 问题 ,学 习 一 些 重要 的 方法 。 

(1) 创建 单位 矩阵 ,比如 创建 一 个 3 行 3 列 的 单位 矩阵 ,如 图 9-6 所 示 。 

(2) 创建 矩阵 。 在 创建 矩阵 的 专用 字符 串 中 ,和 矩阵 的 行 与 列 之 间 用 分 号 隔 开 ,行内 的 
元 素 之 间 用 空格 隔 开 。 举 例 : 使 用 如 下 的 字符 换 调用 mat() 函数 创建 矩阵 ,如 图 9-7 
所 示 。 

同样 的 ,矩阵 的 方法 也 是 很 多 的 ,希望 读者 对 矩阵 能 特别 熟练 掌握 ,毕竟 很 多 数据 都 
可 以 看 作 和 矩阵 进行 分 析 , 如 图 9-8 所 示 。 


图 9-6 


Our[9] :matrixt[[L, 


Yet. shape 局 1]]) 
ret. sise 
ret. sort 
"|ret. squeeze 
ret. std 
Out[3] iret. strides 
ret. sun 


56:789") 


ret.svapaxes 间 
ret.T 


图 9-8 


比如 ,用 工 属性 获取 转 置 矩 阵 , 如 图 9-9 所 示 。 


图 9-9 


(3) 通过 NumPy 数组 创建 矩阵 ,如 图 9-10 所 示 。 


In [5]: ret=np.mat(np.arange(16).reshape(4,4)) 
ret 


Out[5]: matrix([[ 0， 1, 
[4 5, 
[8, 9, 
[12, 13, 


9.1.3 随机 数 生 成 


关于 随机 数 的 生成 方法 是 读者 必须 掌握 的 。NumPy. random 模块 对 Python 的 内 置 
函数 random 进行 了 补充 ,增加 了 高 效 生成 多 种 概率 分 布 样本 值 的 函数 。 举 例 : 我 们 可 以 
用 normal 得 到 一 个 标准 正 态 分 布 ,如 图 9-11 所 示 。 

对 于 随机 数 的 生成 ,建议 读者 就 用 NumPy 的 random 模块 。 这 里 ,我 们 列 出 常用 的 
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(64) 量化 投资 与 Python 语言 


In [8]: Sanp randon norsal(eise (GD)) 
sam 


Out[8]: array([[-0.86985173], 
[-2. 77199762], 
[ 0.27702183], 
[-0. 15608159]]) 


In [9]: sam=np.random.normal (size=(4,4)) 
人 sam 


Out[9]: array([[-0.36986124, -1.86823455, 2.42736784, -1.03384532], 

[-0. 81237638, 0. 80633452，-0. 84744915，-0. 09427308], 
py [ 1.013367 ， 0. 58824639， 0. 81128371，-0. 96527215], 
pp [ 1.16045793, 0. 16483525，-0. 33607596， 1. 00431376]]) 


图 9-11 
统计 函数 ,如 表 9-1 所 示 。 
1 
seed 确定 随机 生成 器 的 种 子 
permutation 返回 一 个 序列 的 随机 排列 
shuffle 对 一 个 序列 就 地 随机 排列 
rand 产生 均匀 分 布 的 样本 值 
randint 从 给 定 的 上 下 限 范围 内 随机 选取 整数 
randn 产生 标准 的 正 态 分 布 样本 值 
binominal 产生 二 项 分 布 的 样本 值 
normal 产生 正 态 分 布 的 样本 值 
Beta 产生 Beta 分 布 的 样本 值 
chisquare 产生 卡 方 分 布 的 样本 值 
Gamma 产生 Gamma 分 布 的 样本 值 
uniform 产生 在 [0,1) 中 的 均匀 分 布 的 样本 值 
下 面 介绍 常见 的 需要 解释 的 几 点 : 
(1) 伪 随 机 数 并 不 是 假 随 机 数 , 这 里 的 “ 伪 ? 是 有 规律 的 意思 ,就 是 计算 机 产生 的 伪 随 
机 数 既 是 随机 的 又 是 有 规律 的 。 
(2) 随机 种 子 来 自 系统 时 钟 ,确切 地 说 ,是 来 自 计 算 机 主板 上 的 定时 /计数 器 在 内 存 
中 的 记 数 值 。 


(3) 随机 数 是 由 随机 种 子 根据 一 定 的 计算 方法 计算 出 来 的 数值 。 所 以 ,只 要 计算 方 
法 一 定 , 随 机 种 子 一 定 , 那 么 产生 的 随机 数 就 不 会 变 。 也 就 是 说 , 伪 随 机 数 也 是 某 种 对 应 
映射 的 产物 ,只 不 过 这 个 自 变 量 是 系统 的 时 间 而 已 。 

(4) 如 果 每 次 调用 srand(O) ?时 都 提供 相同 的 种 子 值 .那么 ,你 将 会 得 到 相同 的 随机 数 
序列 。 


9.1.4 Shuffle 和 permutation 的 区 别 
如 果 传 给 permutation 一 个 矩阵 , 它 将 会 返回 一 个 打 乱 后 的 矩阵 副本 ;而 shuffle 只 


@ srand() 是 C++ 中 一 个 随机 数 生成 种 子 的 函数 。 


是 对 这 个 矩阵 进行 打 乱 ,无 返回 值 。 举 例如 下 : 
如 图 9-12 所 示 ,就 是 说 对 于 shuffle 是 没有 返回 值 的 ,这 一 点 读者 需要 注意 。 


In [10]: 


Out [10]: 


In [11]: 


Out[11]: 


x=np. arange (10) 
y=np. random. shuffle (x) 
type(y) 


NoneType 

x=np. arange (10) 

72=np. random. permutation (x) 

到 

array([0, 5, 1, 9, 7, 8, 4 3, 2, 6]) 


9.2 和 矩阵 计算 


图 9-12 


和 矩阵 计算 (比如 矩阵 的 加 减法 、 数 乘 、 行 列 式 的 计算 以 及 和 矩阵 分 解 ) 是 任何 数组 库 的 重 
要 组 成 部 分 ,也 是 实际 工作 都 会 用 到 的 。 


9.2,1 
如 图 9-13 所 示 。 


9.2.2 计算 特征 值 


Out[14]: array([[ 


矩阵 的 点 积 运算 


1, 2, 3], 
[4, 5, 6]]) 


In [15]: | y=np.array([[1,2], [3,4], [5,6]]) 


了 


Out[15] : array([[1, 2], 
[3, 4], 


[5，6]]) 


In [16]:  s=np.dot(z, 了 ) 


Out[16] : array([[22, 28], 
[ 


49，64]]) 


图 9-13 


Numpy. linalg 模块 中 有 一 组 标准 的 矩阵 分 解 运算 以 及 计算 行列 式 之 类 的 东西 。 这 
个 跟 MATLAB.R 语言 差不多 。 
下 面 列 举 常 用 的 numpy. linalg 函数 ,如 表 9-2 所 示 。 


表 9-2 
diag 按照 一 维 数组 的 形式 返回 对 角 线 的 元 素 
dot 和 矩阵 的 乘法 
trace 计算 对 角 线 的 和 
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各 
全 
沾 
器 
灯 
虽 


续 表 
det 计算 矩阵 的 行列 式 
eig 计算 方 阵 的 特征 值 和 特征 向 量 
inv 计算 方 阵 的 逆 
solve 解 线性 方程 组 Az 一 0, 其 中 A 为 一 个 方 阵 
lstsq 计算 Az=6 的 最 小 二 乘 解 
qr 计算 QR 分解 
svd 计算 奇异 值 分 解 (SVD) 


9.3 蒙特 卡 洛 模拟 


蒙特 卡 洛 模拟 是 金融 行业 和 数据 分 析 科 学 中 都 会 用 到 的 算法 之 一 ,也 是 非常 重要 的 
算法 。 之 所 以 重要 ,是 因为 比如 在 期 权 定价 或 风险 管理 问题 上 都 有 很 强 的 能 力 。 和 其 他 
的 数值 方法 相 比 ,蒙特 卡 洛 方法 很 容易 处 理 高 维 问题 ,而 且 这 种 问题 的 复杂 度 和 计算 需求 
通常 是 按照 线性 方式 增长 的 ,如 图 9-14 所 示 。 


In [ ]: import nuapy as np 
def Monte_Pi (nun) 

count=0 

for i in np.arange(l,nua+l) - 
Xenp. random. unifora(0, 1) 
Y=np. randoa. uniform(0, 1) 
if (Xer2+YFT2<1) 

count=count+1 
return 4#count/num 


In [3]: WARINIOOOO 
Out[3]: 3.13688 


In [4]: WEGRINIOOO00O) 
Out[4]: 3.13994 


In [5]: Monte_Pi 10000000 | 
Out[5]: 3.1419964 


图 9-14 


当然 ,蒙特 卡 洛 的 缺点 也 是 很 明显 的 ,本 身 是 高 计算 需求 的 ,即使 是 一 个 简单 的 问题 
也 需要 海量 的 计算 。 因 此 , 尽 可 能 设计 高 效 的 蒙特 卡 洛 算法 。 


Pandas 介绍 


10.1 Pandas 的 特点 


Pandas 是 金融 行业 从 业 人 员 做 数据 分 析 的 首选 库 , 如 无 必要 ,建议 尽 可 能 使 用 
Pandas, 这 也 是 本 书 前 面 几 个 部 分 对 Python 介绍 得 并 不 多 的 原因 。 

Pandas 使 得 数据 分 析 工 作 变 得 更 加 简单 。 

Pandas 是 基于 NumPy 构建 的 ,这 让 以 NumPy 为 中 心 的 应 用 变 得 更 加 简单 好 用 

Pandas 是 Wes McKinney 在 一 家 对 冲 基金 公司 做 量化 投资 工作 时 创建 的 ,这 让 我 们 
更 有 理由 用 好 这 个 库 。 


10.2 ”Pandas 的 数据 结构 


要 使 用 Pandas ,其 实 最 需要 熟 悉 的 就 是 两 个 数据 结构 : Series 和 DataFrame。 这 两 
个 数据 结构 能 够 让 我 们 解决 金融 行业 的 绝 大 部 分 的 金融 数据 。 

这 里 有 必要 再 讲 讲 为 什么 可 以 这 么 理解 。 其 实 我 们 看 到 的 结构 化 数据 基本 上 就 可 以 
理解 为 一 个 矩阵 。Series 就 是 一 个 向 量 ,DataFrame 就 是 一 个 矩阵 ,向 量 也 是 特殊 的 矩 
阵 ,N 行 1 列 的 一 种 矩阵 。 

大 家 可 能 也 会 发 现 这 和 R 语言 是 很 类 似 的 ,同时 我 们 还 会 进一步 讲解 为 什么 有 了 
Python 的 list ,进一步 有 了 NumPy 的 array ,为 什么 现在 还 需要 有 个 DataFrame。 


10. 2. 1 Series 


Series 是 类 似 于 一 维 数组 的 对 象 。 它 由 一 组 数据 以 及 一 组 相关 的 数据 标签 ,其 实 就 
是 索引 组 成 的 。 举 例如 下 : 

Series 的 形式 如 图 10-1 所 示 ,左边 是 索引 ,右边 是 值 。 由 于 我 们 没有 为 数据 制定 索 
引 , 于 是 系统 会 自动 创建 一 个 0 一 CN 一 TD)CN 为 数据 的 个 数 ) 的 整数 型 索引 。 我 们 可 以 通 
过 Series 的 value 和 index 属性 获取 ,如 图 10-2 所 示 。 


In [22]: import pandas as pd 
ret=pd. Series([11. 45, 2. 67, 36. 45, 0. 4]) 
ret 


Qut[22]: 0 11.45 


1 2.67 
2 36.45 
3 0.40 
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In [23]: ret. values 
Out[23]: array([ 11.45, 2.67， 36.45, 0.4]) 
In [24]: ret.index 


Out[24]: RangeIndex(start=0, stop=4, step=]) 


图 10-2 


我 们 也 可 以 自己 进行 设置 ,创建 一 个 对 数据 进行 标记 的 索引 。 
举例 如 图 10-3 所 示 : 


In [25]: stockdata=pd. Series([3246.22, 3255.78,3229. 13, 3245. 22], index=["opan”, "high”, "low”, “close”]) 
stockdata 


Out[25]: open 3246.22 
high 3255.78 
lov 3225. 13 
close 。 3245. 22 
dtype: float64 


图 10-3 


可 以 看 出 ,这 和 NumPy 相 比 ,可 以 通过 索引 的 方式 选取 Series 的 单个 或 一 组 值 。 如 
图 10-4 所 示 。 


In [26]: stockdatal “open"] 
Out [26] : 3246. 2199999999998 


In [27]: stockdata [“high”, “close"] 


Out[27]: high 3255. 78 
close 3245.22 
dtype: float64 


图 10-4 


我 们 还 可 以 把 Series 看 作 是 一 个 有 定 长 的 有 序 字典 ,因为 它 本 身 就 是 一 个 索引 值 到 
数据 值 的 映射 。 

从 图 10-5 可 以 看 出 ,Python 语言 的 互动 性 很 强 ,而 且 只 要 读者 对 这 门 语言 感 兴趣 ， 
就 可 以 很 自然 地 猜 到 怎么 去 写 程序 ,不 断 试 错 ,并 且 还 可 以 百度 。 


volune” in stockdata 


alse 


图 10-5 


最 后 ,如 果 数 据 被 存放 在 一 个 Python 字典 中 ,也 是 可 以 直接 通过 这 个 字典 创建 
Series, 如 图 10-6 所 示 。 


In [29]: | sdata={"open”:3246, “high”:3255, low”:3229, “close”:3245} 
ret=pd. Series (sdata) 
ret 


Out[29]: close 3245 


high 3255 
low 3229 
open 3246 
dtype: int64 


10. 2.2 DataFrame 


DataFrame 是 一 个 表格 型 的 数据 结构 。 它 含有 一 组 有 序 的 列 ,每 列 可 以 是 不 同 的 值 
类 型 (数值 .字符 串 ,布尔 值 等 )。DataFrame 既 包含 行 索 引 , 也 包含 列 索引 ,也 可 以 看 作 是 
由 Series 组 成 的 字典 。 

当然 ,在 这 里 读者 可 能 会 想到 Numpy 的 多 维 数组 ,其 实 虽 然 DataFrame 是 按照 二 维 
数据 结构 保存 的 ,但 还 是 一 样 可 以 轻松 地 表示 为 更 高 维度 的 数据 。 这 里 ,我 们 主要 是 面向 
金融 行业 的 金融 数据 进行 分 析 。 

创建 DataFrame 的 办 法 很 多 ,最 常用 的 是 直接 传人 一 个 等 长 的 列表 或 NumPy 数组 
组 成 的 字典 ,如 图 10-7 所 示 。 

data={fropen" : [3245, 3246, 3247], “high” : [3255, 3256, 3257]} 


frame=pd. DataFrame (data) 
frame 


high |open 


3255 |3245 


0 
1 
2|3257|3247 


图 10-7 
跟 Series 一 样 ,DataFrame 会 自动 加 上 索引 , 且 全 部 列 会 有 序 排列 。 
10.2.3 重要 的 方法 介绍 


1. 重新 索引 
Pandas 对 象 的 一 个 重要 方法 是 reindex, 作 用 就 是 创建 一 个 适应 新 索引 的 对 象 。 比 
如 图 10-8 所 示 。 


In [32]: | sdata={"“open”:3246, “high”:3255, “low”:3229, “close”:3245} 
ret=pd. Series (sdata) 
ret. reindex (“close”, “open”, “low”, “high”] 


Out[32]: close 3245 
open 3246 


low 3229 
high 3255 
dtype: int64 
图 10-8 
2. 数据 填充 方法 


对 于 金融 时 间 序 列 ,重新 索引 可 能 需要 对 一 些 数据 进行 差 值 处 理 , 这 个 对 很 多 做 高 频 
交易 的 可 能 很 有 必要 ,这 涉及 怎么 处 理 分 笔 数据 ,而 分 笔 数 据 可 能 会 有 很 多 是 缺失 数据 ， 
这 就 需要 按照 某 种 规则 或 者 算法 进行 填充 补 全 。 

上 面 的 那个 例子 ,如 我 们 输入 的 某 一 个 索引 值 不 存在 就 引入 缺失 值 , 如 图 10-9 所 示 。 

第 一 种 方法 是 因为 索引 值 不 存在 ,设置 为 NaN; 第 二 种 方法 指定 为 填充 值 为 0, 如 图 


10-10 所 示 。 
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In [33]: ret.reindex([“close”, “open”, low “high”, “ma5”]) 
Out[33]: close 3245.0 
open 3246.0 
/ low 3229.0 
/ high 3255.0 
ma5 NaN 
dtype: float64 
In [34]: ret.reindex [“close”, “open”, “low”, “high”, “ma5”], fill_value=0 
Out[34]: close 3245 
open 3246 
low 3229 
high 3255 
ma5 0 
dtype: int64 


In [36]: ret.reindex([“close”, “open”, “ma5”, “low”, “high”], method="ffil1") 
Out[36]: close 3245 


open 3246 
ma5 3229 
low 3229 
high 3255 
dtype: int64 


In [37]: ret.reindex [“close”, “open”, “ma5”, "low”, “high”], method="bfill” 


Out[37]; close 3245 


open 3246 
ma5 3246 
low 3229 
high 3255 
dtype: int64 


这 里 我 们 列 出 reindex 差 值 方法 的 各 个 选项 ,如 表 10-1 所 示 。 


表 10-1 
参数 说 明 
ffill 前 向 填充 
bfill 后 向 填充 
3. 删除 指定 项 


删除 Series 中 的 一 个 数 或 者 多 个 项 ,只 要 有 一 个 索引 或 者 列表 即 可 ,这 里 需要 注意 的 
是 返回 的 是 删除 指定 项 后 的 新 的 对 象 。 我 们 可 以 理解 为 删除 矩阵 的 某 一 个 元 素 或 者 某 几 
行 某 几 列 ,如 图 10-11 所 示 。 

这 里 读者 需要 注意 的 是 : 我 们 使 用 的 是 drop 方法 ,而 不 是 delete, 也 不 是 remove。 

对 于 DataFrame, 可 以 删除 任意 一 个 元 素 或 者 任意 行 或 任意 列 。 

例如 ,删除 某 一 行 ,如 图 10-12 所 示 。 

例如 ,删除 某 一 列 , 如 图 10-13 所 示 。 

这 里 需要 注意 的 是 ,删除 某 一 列 的 时 候 , 要 指定 axis 王 1, 就 是 说 默认 的 是 针对 的 行 索 
引进 行 操作 的 ,如 果 改 成 针对 列 索 引 , 设 置 axis 一 1 即 可 。 


In [1]: 


Out[1]: 


import numpy as np 

import pandas as pd 

data=pd. Series (np. arange (5), index=[“open”, “high”, “low”, “close”, “ma5”]) 
ndata=data. drop ("high”) 


ndata 

open 0 
low 2 
close 3 
ma5 4 
dtype: int32 


图 10-11 


data=pd. DataFrame (np, arange (16). reshape (4, 4), index=[“one”, “two”, “three”, “four”] 


ndatal=data. drop([”one”]) 
ndatal 


open | high |low |close 


5 7 


9 1 


13 15 


图 10-12 


data=pd. DataFrame (np. arange (16). reshape (4, 4), index=[“one”, “two”, “three”, “four”] 


» columns=["“open”, “high”, “low”, close]) 


ndata2=data. drop([“open”], axis=1) 
ndata2 


high 


图 10-13 


4. 索引 选取 和 过 滤 
这 里 我 们 进一步 系统 地 介绍 一 下 查看 数据 的 方法 ,主要 包括 索引 、 选 取 和 过 滤 。 
Series 的 索引 既 可 以 按照 NumPy 数组 的 方式 ,也 可 以 根据 index 的 方式 ,如 图 10-14 


所 示 。 


In [4]: 


Out[4]: 


In [5]: 


Out[5]: 


data=pd. Series (np. arange (5), index=[“open”, “high”, “low”, “close”, “ma5”]) 
data[1] 


1 
data “high” 
1 


图 10-14 


不 过 ,这 里 最 需要 注意 的 是 标签 的 切片 与 普通 的 Python 切片 运算 不 同 ,右边 是 包含 
的 ,也 就 是 说 是 一 个 闭 区 间 的 ,如 图 10-15 所 示 。 
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In [6]: data=pd. Series(np. arange (5), index=[ open”, high "lor, rclose ma5”]) 


data[ “high":"close”] 
Out[6]: high . 
low 2 
close 3 
dtype: int32 
]: data 1:3 
]: high 和 
low 2 
dtype: int32 


图 10-15 


当然 ,进行 更 改 也 是 简单 的 ,如 图 10-16 所 示 。 


In [8]: data[l“high”:“close”]=[3255, 3245, 3240] 


In [9]: | data 

Out[9]: open 0 
high 3255 
low 3245 
close 3240 
ma5 4 
dtype: int32 


图 10-16 


DataFrame 进行 索引 也 就 是 获取 一 个 或 者 多 个 列 , 如 图 10-17 所 示 。 


In [11] : data=pd. DataFrame (np.arange(16).reshape(4,4), index=[“one”, “two”, “three”, four] 


data“high 
out[11] : one 1 
two 5 
three 9 
four 13 


Name: high, dtype: int32 


图 10-17 


但 是 ,这 里 需要 注意 的 是 对 行 的 索引 我 们 需要 用 ix 方法 ,如 图 10-18 所 示 。 


In [12]: data 


Out[12] : open 


one |0 


two |4 |s 6 |7 


threels |9 lo | 
four [12 |13 [14 N's 


In [13]: data.ix “two” 


Out[13]: open 汪 


high 5 
low 6 
close 了 


Name: two，dtype: int32 
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如 果 我 们 需要 索引 某 一 行 的 某 几 列 , 也 是 一 样 的 ,如 图 10-19 所 示 。 


In [14]: data 

Out[14]: open |high |low | close 
one |0 1 3 
two |4 5 7 


three |8 9 |10 |1 


four |12 |13 |14 |15 


In [15]: data.ix [two”], [high”, “close”] 


Out[15]: high [close 


two|5 加 


图 10-19 


5. 一 些 特殊 的 方法 。 
(1) 通过 切片 方法 选取 行 ,如 图 10-20 所 示 。 


In [17]: data 


Out[17]: open |high |low |close 


In [18]: data :3 


out[18] : 


(2) 布尔 型 选取 行 , 如 图 10-21 所 示 。 


In [19]: data 


out[19]: open |high |low |close 


four |12 13 |14 |15 


In [20]: data data[ "close ]27 


Out[20]: open |high |low | close 


three|8 9 |10 11 


four |12 |13 |14 |15 


图 10-21 
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因为 对 Python 来 说 ,一 切 都 是 对 象 。 所 以 同类 的 就 是 可 以 比较 的 ,比如 ,我 们 可 以 
按 图 10-22 操作 : 


In [21]: data 


out[21] : 


open|high|iow|close 


图 10-22 


对 筛选 的 数据 进行 赋值 也 是 简单 的 ,如 图 10-23 所 示 。 


In [23]: | data 


oOut[23] : 


In [25]: data[dataK5]=100 
data 


Out[25] : 


one |100 |100 |100|100 


four |12 |13 |14 |15 


图 10-23 


索引 、 选 取 和 过 滤 的 方法 总 结 如 表 10-2 所 示 。 


表 10-2 

类 型 说 明 

选取 DataFrame 的 单个 列 或 一 组 列 , 以 及 针对 一 些 方法 : 布尔 型 (过 滤 行 )、 切 片 
obj[val] (过 滤 行 ) 


obj. ix[val] 选取 行 或 者 列 。obj[ : ,val] 选 取 单 个 列 或 多 个 列 ;obj[vall ,val2] 同 时 选取 行 和 列 
reindex 将 一 个 或 多 个 列 标签 匹配 到 新 索引 


6. 算数 运算 和 数据 对 齐 
算数 运算 ,举例 如 图 10-24 所 示 。 


In [26]: datal=pd. Series([3245, 3255, 3229, 3245], index=[ropen，high low，close 了) 
datal 


Out[26]: open 3245 


high 3255 
low 3229 
close 。 3245 
dtype: int64 


In [27]: data2=pd. Series(np. arange(5), index=[ open”, "high”, “low”, “close”, “na5"]) 
data2 


ont[27]: open 0 
1 
lo 2 
3 
mm5 4 
dtype: int32 


In [28]: dataltdata2 
Out[28]: close 。 3248.0 


high 3256.0 
low 3231.0 
ma5 NaN 
open 3245.0 


dtype: float64 


图 10-24 
在 这 里 ,读者 可 以 看 到 自动 的 数据 对 齐 操作 在 不 重合 的 索引 处 引入 了 NaN 值 。 缺 失 
值 会 在 算术 运算 中 保持 和 传递 。 
对 于 DataFrame, 对 齐 操作 可 以 同时 发 生 在 行 和 列 上 ,如 图 10-25 所 示 。 


In [34]: df2=pd.DataFrame (np. 
inde; 


(012). reshape (3, 4), columns=[“open”, “high”, “low”, “close”], 
lay1”, “day2”, “day3”]) 


df2 


Out[34]: open [nign [Iow [close 
dayilo |1 |2 |s 
dayz|4 |5 le |7 
gaysls |9 lo 


In [35]: dfl+df3 


Ou [35]: close [hign [Iow [open 


daytlnan |2 |4 lo 
day2|NaN |9 |1 |7 
day3|NaN |16 la 14 


图 10-25 


大 家 看 到 的 ,没有 重要 的 相 加 的 就 是 NaN 。 
我 们 可 以 在 Series 或 者 DataFrame 重新 索引 时 ,重新 指定 一 个 填充 值 , 如 图 10-26 所 示 。 


In [36]: | dfl.add df3, fill_value=10000 


Out[36] : close |high|iow|open 
day1|100030|2 |4 |o 
day2|100070|9 |1 |7 
day3|100110|16 |18 |14 


10-26 
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Pandas 中 的 算术 方法 总 结 如 表 10-3 所 示 。 


表 10-3 
方法 说 明 
add 用 于 加 法 (十 ) 
sub 用 于 减法 (一 ) 
4 div 用 于 除法 (/) 
/ mul 用 于 乘法 (*) 


10.2.4 DataFrame 和 Series 之 间 的 运算 


1. 加 减法 
先 看 例子 ,如 图 10-27 所 示 。 


In [37]: | dfl=pd. DataFrane (np. arange (9). reshape (3, 3), columns=[ open”, high™, lov’], 
index=[“dayl”, “day2”, “day3”]) 


dfl 


Out[37]: open [nign [iow 


day1lo |1 |2 
day2l3 |4 |5 
day3 


加 
i 
器 


In [38] : dfl+8888 


Out[38] : open |high |iow 
day1 |8888 |8889 |8890 
day2 |8891 |8892 |8893 
day3| 8894 |8895 |8896 


In [39]: | dl#10000 


out[39] : open [nign [iow 


day1|0 10000 |20000 
day2 | 30000 | 40000 | 50000 


图 10-27 


还 是 一 句 话 , 在 Python 中 ,一 切 都 是 对 象 ,那么 DataFrame 和 Series 的 加 减法 也 就 
很 容易 理解 了 ,如 图 10-28 所 示 。 


In [42]: arr=dfl.ix 1 


In [43]: dfl-arr 


Out [43]: open [nigh iow 
day1|-3 |-3 |3 
day2l0 |o lo 


day3|3 |3 |3 


图 10-28 


2. 顺序 和 排名 
要 对 行 或 者 列 进行 排序 ,可 以 使 用 sort_index 方法 。 返 回 的 是 一 个 重新 排序 的 新 对 
象 , 如 图 10-29 所 示 。 


In [44]: | data=pd. Series (np.arange(5j, index=[“open”, “high”, “low’, “close”, “ma5”]) 
data. sort_index 


Out[I44]: close 3 
high 1 
lom 2 
ma5 4 
open 0 
dtype: int32 


图 10-29 


从 图 10-29 可 以 看 出 ,默认 的 排序 规则 是 升序 排列 的 ,这 里 根据 的 是 第 一 个 字符 ,是 
升序 排列 的 。 当 然 ,我 们 也 可 以 设置 为 降序 排列 ,如 图 10-30 所 示 。 


In [46]: data. sort_index ascending=False 


Out[46]: open 0 
ma5 4 
lo 2 
high 1 
close 3 
dtype: int32 


图 10-30 


同样 的 ,我 们 可 以 针对 值 进行 排序 ,如 图 10-31 所 示 。 


In [53] : data=pd. Series([1000, 7, -56, 22, 6666], index=["open”, “kigh”, low, “close”, “na5]) 
lues() 


Out[53]: low -56 
high 
close 22 
open -1000 
ma5 
dtype: int64 


In [54]: data. sort_values ascending-Palse 
Out[54]: ma5 6666 


open 1000 
elose 22 
high 了 
low 56 
dtype: int64 


图 10-31 


对 于 DataFrame, 可 以 根据 任意 的 列 上 的 索引 进行 排序 ,如 图 10-32 所 示 。 


I [56]: dfl-pl. Detaprame (np. arange(3). reshape(2, 4), index-[” Tha”, “Pri’], columns=[ "cpen’, “higk”, “Low”, “close”]) 
fl. sort_indexO 


J open | high |low |close | 


Fnls ls le |r 


mlo |1 |2 [3 


In [57]: dfl.sort_index axts=l 


DB elose| ngh iow|open 


mu [1 |2 lo 


Fnl7 |5 le | 


10-32 
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3. 常用 统计 
我 们 可 以 用 describe 方法 查询 对 象 的 统计 特征 ,如 图 10-33 所 示 。 


| In [61]: dfl=pd. DataFrane (np. arange(8).reshape (2, 4),index=[ "Thu”, "Fri"], colums=["open”, "igh", “lo”, “close”]) 
| fl 


虽 


/ Out[61]: open [nign [low[ close 


mulo |1 lz |s 
1 Fil4 |s le |7 


yy In [62]: dfl.describe 
el open lhigh lilow [aose 


count | 2.000000 |2.000000 | 2 000000 | 2.000000 


mean |2.000000 |3.000000 | 4.000000 | 5 000000 
std |2.828427 |2.828427 | 2 828427 | 2 828427 
min |0.000000 | 1.000000 | 2 000000 | 3 000000 


25% |1.000000 |2.000000 | 3.000000 | 4.000000 
50% |2.000000 | 3.000000 | 4.000000 | 5 000000 
75% |3.000000 | 4.000000 |5.000000 |6.000000 
max |4.000000 |5.000000 |6.000000 |7.000000 


图 10-33 


我 们 列 出 所 有 与 描述 统计 相关 的 方法 ,如 表 10-4 所 示 。 


表 10-4 
count 非 NaN 值 的 统计 
describe 统计 汇总 
min, max 计算 最 小 值 ,最 大 值 
argmin,argmax 计算 最 小 值 ,最 大 值 的 索引 所 在 的 位 置 
idxmin,idxmax 计算 最 小 值 ,最 大 值 的 索引 
quantile 计算 样本 的 分 位 数 
sum 样本 值 的 总 和 
mean 样本 值 的 均值 
median 样本 值 的 算数 中 位 数 
mad 根据 平均 值 计算 平均 绝对 离 差 
var 样本 值 的 方差 
std 样本 值 的 标准 差 
skew 样本 值 的 偏 度 ( 三 阶 矩 ) 
kurt 样本 值 的 峰 度 (四 阶 矩 7 
cumsum 样本 值 的 累计 和 
cummin, cummax 样本 值 的 累计 最 小 值 , 最 大 值 
cumprod 样本 值 的 累计 积 
diff 计算 一 阶 差分 
pct_change 计算 百分数 变化 

4. 处 理 缺 失 数据 


缺失 数据 在 大 部 分 数据 分 析 中 都 会 用 到 ,Pandas 在 这 方面 的 处 理 是 最 方便 的 。 
Pandas 使 用 浮 点 值 NaN(Not a Number) 表 示 浮 点 和 非 浮 点 数组 中 的 缺失 数据 。 它 


只 是 一 个 便于 被 检测 出 来 的 标记 而 已 ,如 图 10-34 所 示 。 


In [2]: import numpy as np 
import pandas as pd 
data=pd. Series([1000, “open”, “hello”, np. nan, 56]) 


data 
out[2]: 0 1000 
1 open 
2 hello 
3 NaN 
4 56 
dtype: object 


图 10-34 


Python 本 身 的 None 值 也 会 被 当 作 NaN 处 理 的 。 
这 就 涉及 怎么 判断 是 否 是 一 个 缺失 值 ,我 们 使 用 函数 isnull, 如 图 10-35 所 示 。 


In [3]: data[2]=None 


In [4]: data 


Out[4]: 0 1000 
1 open 
2 None 
3 NaN 
4 56 
dtype: object 


In [5]: data.isnull 
Out[5]: 0 False 
1 False 
2 True 
3 True 
4 False 
dtype: bool 


图 10-35 


5. 过 滤 缺 失 数据 
过 滤 缺 失 值 数据 ,我 们 使 用 dropna。 对 于 Series, dropna 返回 一 个 仅 含 非 空 数据 和 
索引 值 的 Series, 如 图 10-36 所 示 。 


In [5]: data. isnull0 


out[5]; 


In [6]: data dropna 
out[6]: 0 = 1000 


4 56 
dtype: object 


图 10-36 
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对 于 DataFrame 可 能 会 比较 复杂 一 些 , 要 是 我 们 想得到 ,可 以 删除 NaN 但 要 考虑 删 
除 NaN 所 占 的 行 还 是 列 。 
如 图 10-37 所 示 ,默认 的 是 删除 包含 缺失 数据 所 在 的 行 。 


In [13] : df=pd.DataFrame([[1,2,3], [1, NA, NA], [NA, NA, NA], [NA, 45, 8]]) 


Out[13]: 0 |1 |z2 


0|10 |20 |30 
1|110 |NaN |NaN 
2|NaN |NaN | NaN 
3 


In [14]: df,dropna 


out04]: [To Tr Tz 


图 10-37 


如 果 我 们 至 少 需 要 删除 某 一 行 全 是 NaN 的 ,我 们 需要 指定 参数 为 how 二 "all"。 如 
图 10-38 所 示 。 


In [17]: df.dropna how="all” 


Out[17]: 0 [1 |[z 


S 
o 
四 
品 
四 
o 


o 
z 
吾 
二 
FE3 
[3 
二 


图 10-38 


如 果 需 要 删除 NaN 所 在 的 列 ,需要 在 参数 中 设置 axis 二 1, 如 图 10-39 所 示 。 


In [30]: | df[ “open”]=NA 


out[30] : 0 |1 2 |open 
10 |20 |30 |NaN 
NaN 


NaN | NaN | NaN | NaN 


ww[N[=[e[ 
o 
3 
所 
之 
z 
二 


NaN|45.0|8.0 |NaN 


In [29]: df.dropna axis=],how=“all” 


ort[29l: [To 11 fz 


10 |20 |30 


1.0 |NaN | NaN 


0 
1 
2|NaN|NaN | NaN 
3 


NaN|450|8.0 


10-39 


6. 填充 缺失 数据 
对 于 填充 缺失 数据 也 是 必须 的 ,我 们 使 用 fillna 函数 。 通 过 fillna 函数 ,我 们 把 缺失 
值 换 成 需要 替换 掉 的 那个 常数 值 ,如 图 10-40 所 示 。 


In [47]: df.fillna 100000 


Out[47]: 


7. 总 结 
缺失 值 的 处 理 方法 如 表 10-5 所 示 。 


表 10-5 


根据 行列 标签 中 存在 的 缺失 数据 进行 过 滤 
用 指定 值 (或 者 差 值 方法 ,比如 前 向 ffill 或 者 后 向 bfill) 填 充 缺 失 数据 
返回 一 个 含有 布尔 型 的 对 象 ,这 些 布尔 值 可 表示 哪些 是 缺失 值 ,哪些 不 是 


dropna 
filla 


isnull 
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11.1 读 取 数 据 


我 们 这 章 介绍 读 取 本 地 数据 的 用 法 ,主要 是 包括 txt、csv 格式 的 文本 数据 。 
这 里 我 们 主要 集中 介绍 如 何 使 用 read_csv 和 read_table。 


1. 使 用 read_csv 函数 
假设 我 们 在 计算 机 G 盘 pybook 文件 下 面 有 这 样 一 个 txt 文档 ,如 图 11-1 所 示 。 


丑 :am.bt - 记事 本 
文件 (篇 纺 (E) 柯 式 (O) 查看 (V) 帮助 (H) 
村 high low close 


122 324 34 43 
3 34 67 89 


图 11-1 


当然 我 们 也 可 以 直接 通过 python 语句 进行 查看 ,如 图 11-2 所 示 。 


In [56]: list open(“G:\pybook\sam. txt”) 


Out[56]: 【open high low close\n’, ’122 324 34 43\n ，" 23 34 67 89'] 


图 11-2 


那么 我 们 用 该 函数 打开 ,如 下 图 11-3 所 示 。 
1: df=pd. read_csv(“G:\pybook\index. txt") 


df=pd. read_csv (“G:\pybook\sam. txt”) 
df 


open high low close 


122 324 34 43 
23 34 67 89 


图 11-3 


Pandas 读 取 数据 和 规整 化 


但 是 ,如 果 我 们 遇 到 有 中 文字 符 的 文本 ,又 会 遇 到 怎样 的 问题 ? 同样 地 ,我 们 在 计算 


机 G 盘 pybook 文件 下 面 有 这 样 一 个 data2. txt 文档 。 
那么 ,我 们 按照 上 面 的 方法 打开 ,就 会 遇 到 这 样 的 问题 ,如 图 11-4 所 示 。 
我 们 不 需要 去 关注 以 上 提示 ,问题 在 于 如 何 解决 中 文字 符 的 问题 。 


2. 使 用 Notepad ++ 


怎么 解决 这 个 问题 呢 ? 可 能 百度 也 不 大 容易 去 解决 好 这 个 问题 ,这 里 告诉 大 家 一 个 


In [72]: | df=pd. read_csr 6: \pyhook\data2. trt™ 


UnicodeDecodeError Traceback (most recent call last) 
Kipython-inpar-72-22f557362e14> in ‘nodule>() 
—> 1 df=pl read_csv ("6:\prbook \data2. txt) 


C: \Progran Files\Anaconds\lib\site-packsges\pandas\io\parsers. py in parsar_f(filepath_or_buffer, sep, deliniter, header, nanes, index_ct 
,susene, prefix, manele dupe cols, dtype. engine, converters, true values, false values, skipinitialspace, skiprors, skipfooter, 
‘ter, verbose, skip blank lines, parse dares, infer_darerine_format, keep_date_col, date_parser, dd 
,quotecher, uoting, eacapechar, comment, encoding, dislect, 记 
in shitespace, as_recarray, compact_irts, use_unsigned, lo eno 


560 skip blank lines=skip blank_lines) 
561 
一 》562 return _read{filepath_or_buffer, krds) 
563 
564 parserf _nanme = name 


C: \Progran Piles\Anaconda\lib\site packages\pandas\io\parsers. py in read(filepath or buffer, krds) 


JU Py TET Untitled4 Last Checkpont 4 hours ago (autosaved) 


File Edt View Inset Cell Kemel Widgets Help 


四 | 二 中 外 | 相合 中 MH 国 CIcode MS Celroobar @ Ho 
1315 except StopIteration: 
1316 if self. first_chunk: 


pandas\parser, pyx in pandas, parser, TextReader. read (pandas\parser,c:8748) () 
pandas\parser. pyx in pandas. parser. TexrtReader._read_low_ mewory (pandas\parser.c:9003) () 
pandas\parser, pyx in pandas. parser. TextReader, _read_rows (pandas\parser,c:10022) () 
pandas\parser. pyx in pandas. parser. TextReader._convert_column_data (pandas\parser. c:11397) () 
pandas\parser,pyx in pandas. parser, TextReader._convert_tokens (pandas\parser.c:12302) () 
pandas\parser. pyx in pandas. parser. TextReader,_convert_with_dtype (pandas\parser. c:13740) () 
pandas\parser, pyx in pandas. parser. TextReader. _string_convert (pandas\parser. c:13983) () 
pandas\parser. pyx in pandas. parser,_string box_utf8 (pandas\parser.c:19298) () 


UnicodeDecodeError: "utf-8’ codec can't decode byte 0xb6 in position 0: invalid start byte 


图 11-4 


最 简单 直接 的 办 法 。 那 就 是 通过 Notepad ++ 来 处 理 这 个 问题 。 读 者 可 以 自行 百度 进行 
下 载 安装 。 

Notepad++ 是 Windows 操作 系统 下 的 一 套 文 本 编辑 器 。Notepad ++ 功能 比 
Windows 中 的 Notepad( 记 事 本 ) 强 大 ,除了 可 以 用 来 制作 一 般 的 纯 文字 说 明文 件 外 ,还 
适合 编写 计算 机 程序 代码 。 

第 一 步 ,我 们 用 Notepad ++ 打开 该 文件 。 

第 二 步 , 选 择 格式 一 一 转 为 utf-8 编码 。 

第 三 步 , 单 击 保存 。 

接 下 来 ,我 们 继续 操作 。 

这 里 ,我 们 把 txt 文件 换 成 csv 文件 ,如 果 遇 到 有 中 文字 符 ,按照 上 面 的 方式 ,用 
Notepad ++ 处 理 一 下 就 可 以 解决 问题 了 ,如 图 11-5 所 示 。 

3. 使 用 read_table 函数 

如 图 11-6 所 示 。 

我 们 可 以 用 head 方法 查看 数据 的 前 5 行 ,如 图 11-7 所 示 。 

细心 的 读者 还 是 会 发 现 有 一 些 细节 需要 完善 ,我 们 在 使 用 read_table 时 ,是 需要 指定 
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In [74]: df=pd.read_csv(“G:\pybook\data2. txt ) 
df 


Out[74] : code jname |oDate tDate 

0 |900949| 东 电 B 股 |1997-09-22|2013-11-07 
1 |600253 | 天 方药 业 | 2000-12-27| 2013-07-15 
600991 | 广汽 长 丰 | 2004-06-14| 2012-03-20 
600263 | 路桥 建设 | 2000-07-25 | 2012-03-01 
600102 | 蒜 钢 股份 | 1997-08-28 | 2012-02-28 
600631 | 百联 股份 | 1993-02-26 | 2011-08-23 
600553 | 太行 水 泥 | 2002-08-22 | 2011-02-18 
600003 | ST 东 北 高 | 1999-08-10 | 2010-02-26 


Ea Ee [> [we BE 
~iololsielN 


图 11-5 


In [82]: df=pd.read_table(“G:\pybook\data2. csvy’) 
df 


,code,name,oDate,tDate 

0.900949 东 电 B 股 ,1997-09-22.2013-11-07 
1.600253 ,天 方药 业 .2000-12-27.2013-07-15 
2,600991, 广 汽 长 丰 ,2004-06-14,2012-03-20 
3,600263, 路 桥 建设 ,2000-07-25,2012-03-01 
4.600102 莱 钢 股份 ,1997-08-28,2012-02-28 
5,600631, 百 联 股 份 ,1993-02-26,2011-08-23 
6.600553 太行 水 泥 .2002-08-22.2011-02-18 
7,600003,ST 东 北 高 ,1999-08-10.2010-02-26 


~jofolslolNT=|o 


图 11-6 


In [83]: | df=pd. read_table(“G:\pybook\data2. csv”) 
df. head 


Out[83]: | |,code,name,oDate,tDate 


0 |0,900949, 东 电 B 股 ,1997-09-22,2013-11-07 
1|1,600253. 天 方药 业 ,2000-12-27,2013-07-15 
2|2.600991, 广 汽 长 丰 ,2004-06-14,2012-03-20 
3 
4 


3,600263, 路 桥 建设 ,2000-07-25,2012-03-01 
4,600102, 莱 钢 股 份 .1997-08-28.2012-02-28 


图 11-7 


分 隔 符 的 。 如 图 11-8 所 示 。 

4. 读 取 文本 数据 的 重要 方法 

在 处 理 很 大 的 文件 的 时 候 , 或 找 出 大 文件 的 参数 集 便于 后 续 处 理 的 时 候 ,我 们 可 以 选 
择 读 取 一 部 分 。 

比如 上 面 的 例子 ,我 们 选取 前 面 10 行进 行 读 取 , 如 图 11-9 所 示 。 


df. head 


In [84]: df=pd.read_table(“G:\pybook\data2. csy”, sep=",“) 


Out[84]: Code 


oDate 


[toate 


900949 


东 电 B 股 | 1997-09-22| 2013-11-07 


天 方药 业 |2000-12-27 |2013-07-15 


广汽 长 丰 | 2004-06-14 |zo1zo3-20 


路 桥 建 设 | 2000-07-25| 2012-03-01 


[wlN[=[e 
|wlNl=>|e 


莱 袍 股份 | 1997-08-28 | 2012-02-28 


图 


In [85] : df=pd.read_table(’G:\pybook\data2. csv”, sep=", ,nrows=10) 
枉 
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Out[85]; code 


oDate 


tDate 


900949 


1997-09-22 


2013-11-07 


600253 


2000-12-27 


2013-07-15 


600991 


2004-06-14 


2012-03-20 


600263 


2000-07-25 


2012-03-01 


600102 


1997-08-28 


2012-02-28 


600631 
600553 


1993-02-26 
2002-08-22 


2011-08-23 
2011-02-18 


65600003 


1999-08-10 


2010-02-26 


600842 


1994-03-11 


2010-02-12 


rrrrS 
olol~=[Iololslolv|=1s 


600607 


1992-03-27 


图 


2010-02-12 
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对 于 使 用 Pandas 读 取 文 本 文件 ,我 们 做 个 总 结 ,如 表 11-1 所 示 。 


表 11-1 

函数 说 明 
read_csv 从 文件 中 读 取 带 分 隔 符 的 数据 。 默 认 分 隔 符 是 逗号 
read_table 从 文件 中 读 取 带 分 隔 符 的 数据 。 默 认 分 隔 符 是 制 表 符 (\t) 


11.2 数据 规整 化 


数据 分 析 和 建 模 的 大 量 编程 工作 都 是 用 在 数据 准备 上 的 : 加 载 、 清 理 、 转 换 以 及 重 
塑 。 因 为 ,有 时 候 我 们 拿 到 的 数据 可 能 并 不 能 满足 我 们 数据 处 理应 用 的 要 求 。 

Python 和 Pandas 提供 了 一 组 高 效 、 灵 活 的 、 高 级 的 核心 函数 和 算法 ,使 我 们 能 够 轻 
松 地 将 数据 规整 化 为 正确 的 形式 。 


11.2.1 数据 库 风 格 的 DataFrame 合并 
先 介绍 一 下 数据 库 中 的 两 个 概念 : 内 连接 和 外 连接 。 


第 11 章 Pandas 读 取 数 据 和 规整 化 
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(1) 内 连接 需 


要 的 是 两 个 表 的 某 一 行 满足 一 定 的 条 件 (直接 理解 为 : 默认 的 是 两 个 


表 的 某 一 行 相等 的 才 返 回 这 行 的 元 素 )。 


(2) 外 连接 返 
NaN 代替 。 


回 的 是 两 个 表 所 有 列 标签 的 元 素 ,该 列 标签 没有 元 素 , Pandas 中 用 


先 举 第 一 个 例子 ,如 图 11-10 所 示 。 


In [86]: dfl=pd. Dataprane({"open”:[3200, 3201, 3203, 3204], "name”:["a”, "b”, “c”, “d"]}) 


df2=pd. DataFrame ({“open”: [10000, 10001, 10002, 10003], “name”:["a”, “b”, “c”, “d"]}) 


dfl+df2 

Out[86]: name [open 
0|aa 13200 
[+lbb 13202 
2|cc 13205 
3lad 13207 

图 11-10 
如 果 我 们 直接 用 加 法 ,会 发 现 这 个 可 能 并 不 符合 我 们 的 预期 。 


第 二 个 例子 ,如 图 11-11 所 示 。 


In [87]: 


Out[87]: 


dfl=pd. DataFrame ({“open”: [3200, 3201, 3203, 3204], "name”:[“a”, “b”, “c”, “d"] ])) 

df2=pd. DataFrame ({ ropen : [10000, 10001, 10002, 10003], “date” :T20170001 “20170302” 
， “20170303”, “20170304"]}) 

dfl+df2 


date [name [open 
0|NaN |NaN |13200 
1|Nan [Nan [13202 
2|NaN |NaN |13205 
3|NaN | NaN_ |13207 


图 11-11 


这 个 例子 ,可 以 看 到 ,合并 的 时 候 如 果 列 标签 不 一 样 ,都 是 按照 NaN 处 理 的 ,当然 我 们 也 
可 以 按 一 定 规则 进行 数据 补充 。 


第 三 个 例子 ,如 图 1 


In [88]: 


1-12 所 示 。 


df1l=pd. DataFrame ({“open”: [3200, 3201, 3203, 3204], “name”: [“a”, "| 


df2=pd. DataFrame ({“open”: [10000, 10001, 10002, 10003], “name”:[" 
pd. merge dfl, df2 


Out[88]: 


name |open 
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我 们 知道 有 一 个 merge 函数 ,但 是 结果 如 上 。 问 题 出 在 哪里 呢 ? 
第 四 个 例子 ,如 图 11-13 所 示 。 
事实 就 是 ,在 一 般 情况 下 ,如 果 我 们 需要 合并 两 个 表格 ,那么 我 们 采取 的 方法 是 设置 


merge 的 参数 为 “ou 


ter”。 


第 五 个 例子 ,如 图 11-14 所 示 。 


In [89]: | dfl=pd. DataFrame({open“:[3200, 3201, 3203, 3204], “name”: 
df2=pd. DataFrame ({"“open” : [10000, 10001, 10002, 10003], “name” 
pd. merge dfl, df2, how=“outer” 

Out[89]: | [name [open 
|o| a 32000 
1|5 3201.0 
2|e 3203.0 
3d 32040 
4a 10000.0 
[sl 10001.0 
elc 10002.0 
7|d 10003.0 


图 11-13 


In [91]: dflzpd. DataFrane ({-open-: [3200, 3201, 3203, 3204], “name” 


a"]}) 
df2-pd. Dataprame ({-open”: [10000, 10001, 10002, 10003], “date™ :120170301", "20170302" 
“20170303", “20170304"]}) 
pd. merge dfl df2, how="outer” 


Out[91]: 


NaN |10000.0|20170301 
NaN |10001.0|20170302 
NaN |10002.0|20170303 

10003 0|20170304 


aTaTeTeTRTeTe 
a 
全 
加 
去 
加 


| 


图 11-14 


通过 参数 设置 "outer”, 我 们 发 现 通过 使 用 这 样 的 方法 ,得 到 了 我 们 想 要 的 结果 
在 默认 情况 下 ,merge 的 参数 是 “inner”。 
第 六 个 例子 ,如 图 11-15 所 示 。 

In [92]: | dfl=pd. Dataframe({open”:[3200, 3201, 3203, 3204], “nane” 


df2=pd. DataFrame ({“open” : [3200, 10001, 10002, 10003], “name 
pd. merge dfl, df2 


Out [92]: 
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这 个 例子 进一步 验证 ,merge 的 默认 方法 使 用 的 是 内 连接 。 
如 果 读 者 明白 了 内 连接 和 外 连接 , 则 数据 库 还 有 左 连接 和 右 连 接 就 比较 容易 理解 了 ， 
这 里 就 不 介绍 了 ,有 兴趣 的 读者 可 自行 百度 。 
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虽 


11.2.2 轴 向 连接 


大 家 看 到 的 ,合并 默认 的 也 是 针对 行 的 ,那么 针对 列 怎么 操作 呢 ? 
第 一 个 例子 ,如 图 11-16 所 示 。 


In [93]: datal=pd. Series([11, 22], index=[“high”, "low“]) 
data2=pd. Series ([33, 44, 55], index=[ “ma5”, “ma20", “ma60"]) 
data3=pd. Series ([10000, 20000], index=[“volume”, “code”]) 
pd. concat [datal, data2, data3] 


out[93] : high 1 
low 22 


ma5 33 
ma20 44 
ma60 55 
volume 10000 
code 20000 
dtype: int64 


图 11-16 


可 以 看 到 的 ,默认 的 方法 是 按照 行 的 标签 进行 合并 的 。 
第 二 个 例子 ,如 图 11-17 所 示 。 


In [94]; datal=pd. Series([11,22),i 
data2=pd. Series ([33, 44, 55], index=| 
data3=pd. Series([10000, 20000], inde: 
pd. concat [datal, data2, data3], axis=1 


out[94] 0 


1 |2 
code |NaN |NaN |20000.0 
high |11.0|NaN [Na 


low 220|NaN [NaN 


volume | NaN | NaN |+ooooo 


图 11-17 
如 果 使 用 axis 王 1, 则 我 们 会 发 现 产 生 了 一 个 DataFrame。 


11.2.3 移 除 重复 数据 
举例 如 图 11-18 所 示 。 


In [95]: | df=pd.DataFrame({“open”:[3200,3200,3203,3204], "name”:["a”, “a”,“c”,"d"]}) 
df. drop_duplicates 


Out [95]: name |open 


a 3200 


[9 


c 3203 


3ld 3204 
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Drop_duplicates 方法 用 于 返回 一 个 移 除了 重复 行 的 DataFrame。 


11.2.4 利用 函数 进行 数据 转换 
在 对 数据 进行 处 理 的 时 候 , 我 们 可 能 希望 方便 地 处 理 得 到 一 些 真正 想 要 的 数据 ,比如 


全 部 转换 成 为 期 望 为 0 的 数据 等 。 
第 一 个 例子 ,如 图 11-19 所 示 。 


data=pd. Series([1, 2, 3, 4, 5], index=[“high”, “low”, “open”, “close”, “ma5”]) 
data. map lambda x:x##2 


]: high 
low 
open 
close 
ma5 
dtype: 1 
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上 面 的 方法 就 是 把 原来 的 Series 的 每 个 元 素 都 平方 并 返回 。 
第 二 个 例子 ,如 图 11-20 所 示 。 


In [97]: 
df[“open’]. map lambda x:x+100000 


Qut[97]: 0 103200 
1 103201 
2 103203 
3 103204 


Name: open, dtype: int64 


图 11-20 
这 个 例子 中 ,我 们 针对 DataFrame 对 象 中 的 open 列 每 个 元 素 都 加 10 000 并 返回 。 


11.2.5 替换 数据 
如 果 我 们 把 map 方法 看 作 是 针对 全 部 或 局 部 的 数据 替换 ,那么 我 们 可 以 把 replace 


看 作 是 针对 特定 的 数据 替换 。 
前 面 我 们 学 习 的 fillna 方法 也 可 以 看 作 是 数据 蔡 换 的 一 种 特殊 情况 。 


我 们 看 第 一 个 例子 ,如 图 11-21 所 示 。 


In [98]: | data=pd. Series([1, 2, 3, 4 5], index=[“hish”, “low”, “open”, “close”, “ma5”]) 

data. replace 3, 100000 

Out[98]: high 1 
low 2 
open 100000 
close 4 
ma5 5 
dtype: int64 
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第 二 个 例子 ,如 图 11-22 所 示 。 
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In [99]: pd.merge(df1, df2) 

data. replace {3:100000, 4:99999} 
Out[99]: high 1 

OW 2 

open 100000 

close 99999 

ma5 5 

dtype: int64 

图 11-22 


11.2.6 Groupby 操作 


先 举 个 例子 。 
比如 ,我 们 本 来 有 一 组 数据 ,如 图 11-23 所 示 。 


In [117]: dfpd.Dataprane({"open":[1,2,3,4,5], "high’:[6, 7,3,9, | a a “eloee”:[60, 70, 80, 90, 400]}, 
index=["20170301", 站 册 人 ia 各 20170303: 
| 91", “91”, “91”, “02", “g2", } 


Mt]: close [high [iow [open [mas 


20170301|60 6 |10 |1 
20170302|70 |7 |20 |2 
20170303|s0 |8 |30 |3 |o 
4 
5 


加 


al 


20170304|90 |9 |40 Q2 
Q2 


20170305|100 | 10 |50 


图 11-23 


现在 我 们 需要 计算 前 三 天 和 后 两 天 的 各 个 开 高 低 收 价格 的 平均 值 。 我 们 可 以 先 添加 
一 列 , 表 示 我 们 需要 计算 的 变量 ,如 图 11-24 所 示 。 


In [118]: Rope US GUEST 
grouped. mean() 


Out [118]: close |high |low |open 
ma5 
Q1 |700 |70 |200|20 
450|45 


图 11-24 


这 里 我 们 使 用 的 是 grouby 函数 。 按 ma5 进行 分 组 ,并 计算 ma5 列 的 平均 值 ,我 们 可 
以 访问 df, 并 根据 ma5 调用 groupby。 
当然 ,我 们 可 以 仅仅 针对 某 一 列 进行 这 样 的 计算 。 如 图 11-25 所 示 。 


In [119]: EU a 
grouped. mean () 


Out[119] : ma5 
Ql 2.0 
Q2 45 


Name: open，dtype: float64 
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注意 : 变量 grouped 是 一 个 Groupby 对 象 , 它 实际 上 还 没有 进行 任何 计算 ,只 是 含有 
一 些 有 关 分 组 键 df[ma5] 的 中 间 数 据 而 已 ,然后 我 们 可 以 调用 Groupby 的 mean 方法 来 
计算 分 组 平均 值 。 


11.3 保存 数据 


这 里 我 们 只 是 介绍 保存 为 csv 格式 的 ,其 他 的 格式 基本 上 也 是 类 似 的 。 如 图 11-26 
所 示 。 


In [ll]: import pandas as pd 
df=pd. DataPrane ({"open”: [1, 2, 3, 4, 5], "high”:[6, 7, 8, 9, 10], "low”: [10, 20, 30, 40, 50], 
“close”:[60, 60, 80, 90, 100]}, index=[“20170301”, “20170302", “20170303”, "20170304", “20170305”]) 
df 


outl1l] love [nign Trow 
20170301 60 6 10 
20170302 60 7 
20170303 80 8 
20170304 90 9 
20170305 100 |10 


Re 


EE 


In [12]: df.to_csv "6:\pybook\sandata. csv” 


图 11-26 
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注意 : 变量 grouped 是 一 个 Groupby 对 象 , 它 实际 上 还 没有 进行 任何 计算 ,只 是 含有 
一 些 有 关 分 组 键 df[ma5] 的 中 间 数 据 而 已 ,然后 我 们 可 以 调用 Groupby 的 mean 方法 来 
计算 分 组 平均 值 。 


11.3 保存 数据 


这 里 我 们 只 是 介绍 保存 为 csv 格式 的 ,其 他 的 格式 基本 上 也 是 类 似 的 。 如 图 11-26 
所 示 。 


In [ll]: import pandas as pd 
df=pd. DataPrane ({"open”: [1, 2, 3, 4, 5], "high”:[6, 7, 8, 9, 10], "low”: [10, 20, 30, 40, 50], 
“close”:[60, 60, 80, 90, 100]}, index=[“20170301”, “20170302", “20170303”, "20170304", “20170305”]) 
df 


outl1l] love [nign Trow 
20170301 60 6 10 
20170302 60 7 
20170303 80 8 
20170304 90 9 
20170305 100 |10 


Re 


EE 


In [12]: df.to_csv "6:\pybook\sandata. csv” 


图 11-26 
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绘图 和 可 视 化 


在 使 用 Numpy 进行 学 习 统计 计算 时 是 枯燥 的 ,大 量 的 数据 令 我 们 很 头疼 ,所 以 我 们 
需要 把 它 图 形 化 显示 。 
Matplotlib 是 一 个 Python 的 图 形 框架 ,类 似 于 MATLAB 和 R 语言 。 


12.1 使 用 matplotlib 


通常 的 引入 约定 是 : import matplotlib. pyplot as plt 。 先 看 一 个 简单 的 例子 ,如 
图 12-1 所 示 。 


In [124]: import matplotlib.pyplot as plt 
import numpy as np 
x=np. arange (0, 10, 0. 1) 
y=np. random randn (len (x)) 
plt. plot (x, y) 
plt. show 


绘图 大 致 分 为 以 下 几 步 。 

第 一 步 ,导入 matplotlib. pyplot 。 

第 二 步 , 设 置 自 变 量 和 因 变 量 。 

第 三 步 , 调 用 plot 函数 绘图 ,以 及 show 函数 显示 图 像 。 

当然 ,这 样 的 图 像 很 粗糙 ,我 们 需要 设置 标题 .颜色 等 属性 , 接 下 来 我 们 逐步 进行 详细 
介绍 。 


1. Figure 和 Subplot 

Matplotlib 的 图 像 都 位 于 figure 对 象 中 。 我 们 可 以 用 plt. figure 创建 一 个 新 的 
Figure。 这 个 就 相当 于 提供 了 一 块 画布 .我 们 可 以 在 上 面 画 一 张 图 或 几 张 图 。 当 然 我 们 
要 这 样 操作 的 话 , 就 不 能 直接 画图 ,必须 先 指定 创建 一 个 或 多 个 图 片 窗口 (subplot) 。 

比如 : 

axl= fig.add subplot (2,2,1) 

这 个 代码 的 意思 是 : 图 像 是 2X2 的 ,就 是 说 有 2 行 2 列 ,4 个 图 的 ,而 且 当 前 选中 的 
是 第 一 个 。 如 果 我 们 把 后 面 的 三 个 图 都 创建 出 来 的 话 , 则 

ax2=fig.add_subplot (2,2,2) 

ax3= fig.add_subplot (2,2,3) 

ax4= fig.add subplot (2,2,4) 

如 果 这 个 时 候 , 我 们 画图 的 话 ,默认 的 情况 下 是 针对 最 后 一 个 图 片 窗口 画图 的 。 
比如 ， 

如 果 我 们 把 4 个 图 都 画 上 ,可 直接 调用 每 个 图 片 窗口 的 plot 方法 ,如 图 12-2 所 示 。 


In [17]: import matplotlib.pyplot as plt 
fig=plt, figure() 
axl=fig. add_subplot (2, 2, 1) 
ig. add_subplot (2, 2, 2) 
d_subplot (2, 2, 3) 
ax4=fig. add_subplot (2, 2, 4) 
import numpy as np 
plt. plot np. random. randn (100). cumsum() 


Out[17]: [Cmatplotlib. lines.Line2D at 0x20430fedd68>] 


,| h hn L L 0.0 L h 1 L 
00 02 04 06 08 10 00 02 04 06 08 10 
2 


0.8 」 9 
-2 
0.6 | -4 
0.4 」 -6 
-8 
1-10 
0.0 —12 -一 一 一 一 : 


L L L L L 
00 02 04 06 08 10 0 20 40 60 80 100 


2. 颜色 、 标 记 和 线 型 

Matplotlib 的 plot 函数 接受 一 组 XX 和 Y 坐标 ,还 可 以 接受 一 个 表示 颜色 和 线 型 的 字 
符 串 缩写 。 例 如 : 我 们 在 图 12-3 第 四 个 图 中 用 虚线 进行 绘制 。 

当然 ,我 们 可 以 更 规范 地 使 用 如 下 形式 : 
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In [37]: import matplotlib. pyplot as plt 
fig=plt. figure() 
axl=fig add_subplot (2, 2, 1) 
ax2=fig. add_subplot (2, 2, 2) 

| ax3=fig,add_subplot(2, 2, 3) 

| ax4-fig, add_subplot (2, 2, 4) 

f import numpy as np 

plt. plot (np. random. randn (100). cumsum(),’r—’) 

t = np. arange (0.0, 5.0, 0.01) 

data = np. cos (2#np. pi*t) 

axl. plot (np. exp (data)) 

ax2. plot (data) 

jp ax3. plot np. arange (100), np. arange (100) +np. random. randn (100) 


Out[37]: [Cmatplotlib. lines.Line2D at 0x20432aala90>] 


一 有 10 
0.5 


0.0 上 


“0 100 200 300 400 500 ”0 100 200 300 400 500 


图 12-3 
plot(x,y,linestyle ”,color 二 “r”) ,读者 希望 使 用 各 种 颜色 可 以 通过 查询 官方 
文档 或 者 百度 。 


线性 图 还 可 以 加 上 一 些 标 记 (marker) ,以 强调 实际 的 数据 点 ,如 图 12-4 所 示 。 


In [39]: plt.plot np.random randn(100), color="g”, linestyle="—", marker="*" 


Out[39]: [Cmatplotlib. lines.Line2D at 0x20433e39438>] 


0 20 40 60 80 100 


图 12-4 


3. 刻度 .标签 和 图 例 
我 们 仍然 通过 下 面 的 例子 来 说 明 操 作 方法 ,如 图 12-5 所 示 。 


EEC 
axfig. add_subplot (1, 1, 1) 
ax. plot (np. random. randn (100). cumsum ) 
ax. set_xticks ([0, 25, 50, 75, 100]) 
ja set_ xticklabels([ one”, “two’, “three’, four7 five”]) 
ax. set_yticks([-20, —10, 0, 10, 20]) 
ax. set_xlabel ("Sample”) 
ax. set_title ("plot random walk”) 


Out[47] : Cmatplotlib. text. Text at 0x2043419ceb8> 


0 plot random walk 


10 


4. 一 个 图 片 窗口 中 画 多 幅 图 并 添加 标签 
如 果 我 们 需要 就 多 组 数据 进行 绘图 ,并 在 同一 个 图 片 窗 口中 进行 比较 ,我 们 就 需要 做 
个 标签 ,如 图 12-6 所 示 。 


In [53]: 


ax. plot (np. random. randn (100). cumsum(), color="r", label="one”) 
ax. plot (np. random. randn (100). cumsum (), color="g”, label="two”) 
ax. plot (np. random. randn (100). cumsum() , color="b”, label="three”) 


ax. legend loc="best”™ 
Out[53] : 《matplotlib. legend. Legend at 0x204353fbe80》 


图 12-6 
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在 一 个 图 片 中 画 多 个 图 片 是 直接 不 断 地 调用 plot 方法 ,在 添加 图 例 的 时 候 , 我 们 可 
以 通过 label 属性 进行 设置 。 如 上 图 所 示 ,loc 告诉 matplotlib 将 图 放 在 哪个 位 置 ,一般 情 
况 下 推荐 使 用 “best”, 因 为 系统 会 自动 选择 最 适合 的 位 置 。 

5. 保存 图 表 到 文件 

利用 plt. savefig 可 以 保存 当前 的 图 表 到 文件 。 

如 图 12-7 所 示 ,我 们 把 图 片 保存 到 G 盘 pybook 文件 夹 里 ,那么 我 们 查看 该 文件 夹 
时 可 以 看 到 如 图 12-8 所 示 。 


(np. random randn ( 
(np. random. randn (10( 


(np. random randn ( 
ax. legend (loc: 
plt. savefig 


20 40 60 80 100 


randomwalkjpg - 照片 


项 查看 所 有 照片 


文件 信息 


GA\pybook 


这 台电 脑 
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Pandas 提供 了 更 简单 的 一 些 绘图 方法 。 
1. 针对 Series 绘图 
举例 ,如 图 12-9 所 示 。 


In [65]: import pandas as pd 
s=pd. Series (np. random. randn (100). cumsun 0 ) 
s.plot() 


Out[65]: 《matplot]ib. axes._subplots. AxesSubplot at 0x2043407e4e0> 
一 


2 


也 就 是 说 ,用 Pandas 中 的 plot 画图 很 简单 ,直接 调用 即 可 。 
2. 针对 DataFrame 绘图 
对 于 DataFrame 中 的 各 列 数据 分 别 在 同一 个 图 片 窗口 中 进行 画图 ,如 图 12-10 所 示 。 


In [901: impert perdas as pd 
import mumpy aa op 
DataFraps np. randog. randr (100, 人 cuasum (0), 
df. plot 


“open”, “high”, “los”, “close”], index=np. srange (0, 100, 1)) 


Our [90]: cnarplorlib. axes. _sibplors. Arassubplor af 0x20430750d43> 


图 12-10 


关于 利用 Pandas 更 详细 的 画图 方法 ,读者 可 以 自行 研究 。 这 里 只 是 希望 看 到 直接 调 
用 Pandas 是 最 方便 的 ,特别 是 在 做 金融 数据 分 析 时 应 尽 可 能 使 用 Series 和 DataFrame。 
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金融 数据 分 析 


13.1 金融 时 间 序 列 


在 金融 数据 分 析 中 ,时 间 序 列 是 用 得 最 多 的 了 ,毕竟 大 部 分 人 还 是 拿 交 易 数 据 在 进行 
分 析 。 所 以 时 间 序 列 是 一 种 重要 的 结构 化 数据 格式 。 而 且 很 多 时 间 序 列 是 固定 频率 的 ， 
比如 我 们 一 般 都 是 分 析 日 线 数据 ,或 者 30 分 钟 数据 ,等 等 。 时 间 序 列 数据 的 意义 取决 于 
具体 的 应 用 场景 ,主要 包括 以 下 几 个 : 

时 间 截 (timestamp) : 特定 的 时 刻 。 

固定 时 期 (period) :如 2017 年 3 月 或 2016 年 。 

时 间 间 隔 (interval) : 由 起 始 时 间 戳 和 结束 时 间 戳 表示。 时 期 可 以 看 作 是 时 间 间 隔 
的 特例 。 

1. 日 期 和 时 间 类 型 以 及 工具 

这 里 我 们 主要 介绍 datatime 库 ,如 图 13-1 所 示 。 


In [ ]: import datetime as dt 
dt. 


Im [ sdt.datetine 
dt. datetime_CAPI 


dt. timedelta 
dt. timezone 
dt. teinfo 


在 这 个 库 中 ,我 们 用 得 最 多 的 是 datetime 这 个 对 象 。 这 里 有 两 个 datetime, 前 者 是 一 
个 库 , 后 者 是 一 个 对 象 。 如 图 13-2 所 示 。 


In [21]: import datetime as dt 
now=dt. datetime. now() 
now 


Out[21] : datetime. datetime(2017, 3, 27, 8, 30, 10, 140590) 
In [22]: import datetime as dt 


now=dt. datetime. now() 
Print now. year, now. month now. day 


2017 3 27 


图 13-2 


Datetime. timedelta 表示 两 个 datetime 对 象 之 间 的 时 间 差 。 


In [49]: import datetime as dt 
delta=dt. datetime (2017, 3, 27, 0, 0) 一 dt. datetime (2016, 1, 1, 0, 0) 
delta 


Out[49]: datetime. timedelta(451) 


In [50]: delta. days 
Out[50]: 451 


这 里 是 按照 天 数 进 行 计算 的 。 

2. 检查 带 有 重复 索引 的 时 间 序 列 

有 时 候 , 我 们 抓 取 数 据 或 者 拿 到 的 数据 可 能 需要 去 掉 重复 的 ,比如 某 一 天 的 数据 重复 
了 ,我 们 就 需要 去 掉 。 举 例如 图 13-4 所 示 : 


In [58]: import pandas as pd 
import numpy as np 
dates=pd. DatetimeIndex([“3/1/2017"，“3/2/2017"，“3/2/2017", “3/3/2017", “3/3/2017"]) 
data=pd. Series (np. arange (5), index=dates) 
data 


Out[58]: 2017-03-01 
2017-03-02 
2017-03-02 
2017-03-03 
2017-03-03 
dtype: int32 


mumro 


In [57]: data. index. is_unique 


Out[57]: False 


In [59]: | data “3/2/2017” 


Out[59]: 2017-03-02 1 
2017-03-02 2 
dtype: int32 


图 13-4 


假设 我 们 需要 对 非 唯一 时 间 戳 的 数据 进行 聚合 。 一 个 很 好 的 办 法 就 是 使 用 
groupby, 并 传人 level=0( 索 引 的 唯一 一 层 ) ,如 图 13-5 所 示 。 


In [84]: | grouped=data. groupby (level=0) 
grouped. unique() 


Out[84]: 2017-03-01 
2017-03-02 
2017-03-03 
dtype: object 


In [85]: grouped. mean 


Out[85]: 2017-03-01 0.0 
2017-03-02 1.5 
2017-03-03 3.5 
dtype: float64 


13-5 


特别 地 ,如 果 是 高 频数 据 , 比 如 国内 股指 期 货 交易 规则 是 每 500 毫秒 会 发 送 一 次 成 交 
数据 ,但 是 可 能 因为 网 速 等 原因 ,会 遇 到 一 些 重复 数据 ,那么 这 个 时 候 可 能 就 需要 根据 具 
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体 情况 做 相应 的 去 重 处 理 了 。 
3. 重 采样 以 及 频率 转换 
重 采样 (resample) 指 的 是 将 时 间 序 列 从 一 个 频率 转换 成 另 一 个 频率 的 处 理 过 程 。 很 


多 时 候 , 我 们 遇 到 的 就 是 把 高 频率 的 数据 转换 成 低频 率 的 数据 ,专业 术语 也 叫 降 采 样 。 比 


如 我 们 可 能 获得 的 数据 是 1 分 钟 数 据 , 为 了 交易 或 者 策略 的 需要 ,我 们 需 转换 成 5 分 钟 、1 


小 时 或 日 数据 等 。 


比如 ,我 们 先生 成 一 个 日 线 数据 ,如 图 13-6 所 示 。 


In [92]: import pandas as pd 


import numpy as np 
datel=pd date_range (“1/1/2016", periods=100, frea="D") 


random. randn [lea (datel)), index=datel) 
9 


"，72016-01-02'，"2016-01-03' ，' 2016-01-04 ， 
6-01-06， "2016-01-07 
J 2， 


接 下 来 ,如 果 我 们 要 转换 成 月 线 数据 的 话 ,进行 如 下 操作 ,如 图 13-7 所 示 。 


In [93]: 


import pandas as pd 

import numpy as np 

datel=pd. date_range (“1/1/2016", periods=100, freq="D") 
Hdatel 

ts=pd. Series (np. random. randn (len (datel)), index=datel) 
ts. resample("M”). mean 


]: 2016-01-31 -0.166621 


2016-02-29 -0.125994 
2016-03-31 0.087146 
2016-04-30 -0.195669 
Freq: M, dtype: float64 


图 13-7 


图 13-7 就 是 转换 后 的 月 线 数据 , 且 采 用 的 是 取 均 值 的 办 法 。 记 住 这 里 是 采样 后 的 数 
据 也 是 一 个 对 象 ,这 个 对 象 也 有 mean、max 等 方法 ,但 没有 how 这 个 参数 的 设置 。 


4. OHLC 采样 
在 金融 领域 中 ， 


图 13-8 所 示 。 


开 高 低 收 ( 开 盘 价 、 最 高 价 、 最 低 价 、 收 盘 价 ) 是 常见 的 数据 形式 ,如 


当然 因为 这 里 无 法 查看 最 高 价 和 最 低 价 , 这 里 的 最 高 价 和 最 低 价 就 是 根据 开盘 价 和 
收盘 价 比较 而 得 出 的 。 

5. 通过 groupby 进行 采样 

groupby 函数 可 能 是 最 强大 的 采样 工具 了 ,如 图 13-9 所 示 。 


In [101]: import pandas as pd 
import numpy as np 
date2=pd. date_range (“1/1/2016", periods=100, freq="T") 
ts=pd. Series (np. arange (100), index=date2) 
ts. resample (5min"). ohle 


Out[101]: open |high | low |close 


2016-01-01 00:00:00|0 4 


2016-01-01 00:05:00 |5 9 
2016-01-01 00:10:00|10 |14 |10 |14 
2016-01-01 00:15:00 | 15 19 |15 |19 


2016-01-01 00:20:00|20 |24 |20 |24 


In [103]: date3=pd. date_range(“1/1/2016", periods=100, freq="D") 
ts=pd. Series (np. arange (100), index=date3) 
ts. groupby (lambda x:x. month). mean 


‘Out[103]: 1 15 


2 45 
3 75 
4 95 
dtype: int32 


图 13-9 


建议 读者 进一步 熟练 使 用 groupby 这 个 函数 。 
13.2 TuShare 介绍 


TuShare 是 一 个 免费 .开源 的 Python 财经 数据 接口 包 , 官 网 是 : http://tushare. 
org/。 主 要 实现 对 股票 等 金融 数据 从 数据 采集 、 清 洗 加 工 到 数据 存储 的 过 程 ,能 够 为 金融 
分 析 人 员 提 供 快速 ,整洁 和 多 样 的 便于 分 析 的 数据 ,为 他 们 在 数据 获取 方面 极 大 地 减轻 工 
作 量 ,使 他 们 更 加 专注 于 策略 和 模型 的 研究 与 实现 上 。 考 虑 到 Python Pandas 包 在 金融 
量化 分 析 中 体现 出 的 优势 ,TuShare 返回 的 绝 大 部 分 的 数据 格式 都 是 Pandas DataFrame 
类 型 ,非常 便于 利用 Pandas/NumPy/Matplotlib 进行 数据 分 析 和 可 视 化 。 

TuShare 的 数据 主要 来 源 于 网 络 , 读 者 可 以 关注 “ 挖 地 兔 " 的 微 信 公 众 号 ,该 作者 会 定 
期 发 布 TuShare 的 最 新 动态 及 有 价值 的 金融 数据 分 析 与 处 理 方面 的 教程 和 文章 。 

TuShare 的 数据 包括 交易 数据 、 投 资 参 考 数据 、 股 票 分 类 数据 、 基 本 面 数 据 、 宏 观 经 济 
数据 、 新 闻 事 件数 据 、 龙 虎 榜 数 据 、 银 行 间 同业 拆 放 利率 等 。 

关于 安装 TuShare, 读 者 可 以 看 前 面 介绍 的 方法 ,自行 安装 ,并 可 登录 TuShare 的 官 
方 网 站 ,上 面 也 有 详细 介绍 。 

接 下 来 ,我们 按照 数据 分 析 的 流程 做 一 个 大 盘 指 数 的 图 形 以 及 包含 5 日 .20 日 .60 日 
的 均线 图 。 

第 一 步 : 获取 数据 。 如 图 13-10 所 示 。 

一 般 来 讲 , 数 据 过 多 ,可 能 我 们 很 难 直 观 地 看 到 数据 的 一 些 基 本 情况 ,比如 有 多 少 行 、 
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In [110]: import tushare as ts 
data=ts. get_hist_data(rsh-) 
data 
1 Out [110]: open |nigh |close |iow volume |price change|p_change|mal 
/ date 
2017-03-24 | 3247 350 | 3275 210 | 3269 450 | 3241 120 | 2197779 25 | 20. 900 0.64 32 
2017-03-23 | 3245 .810| 3262 090 | 3248.550 | 3221 930| 1930291 50|3 330 010 32 
2017-03-22 | 3246 220 | 3255 780 | 3245 220 | 3229 130 | 1897316 50 | -16 390 050 |32| 
J 2017-03-21 |3250 250 | 3262 220 | 3261.610 | 3246 700 | 1627193.00 | 10.800 0.33 32 
2017-03-20 | 3241 110 | 3251.130 | 3250 .810 | 3228 120| 1705484 25| 13.360 0.41 a2 
2017-03-17 |3271.870 | 3274 190 | 3237 450 | 3232 280 | 2005832 25 | -31 490 -096 |32 
2017-03-16 |3247 160 | 3269 770 | 3268 940 | 3247 160 | 1894160 00 |27 180 0.84 32: 
| perp perp Preven PP9FPF9 PPPEP9 PPPPPFR PP pope PP | 
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多 少 列 以 及 哪些 列 。 我 们 可 以 用 下 面 的 方法 予以 统计 ,如 图 13-11 所 示 。 


In [123]: | data. columns 


"low, "volume' ，" price_change' ，" p_change ， 


Out[123] : Index([' open ， 
-ma5 ，"v_mal0' ，*v_ma20 ], 


ma 
dtype=' object’) 


In [124]: data. index 
Out[124]: 


"2017-03-21’ ，* 2017-03-20'， 
”2017-03-14  ， "2017-03-13”， 


Index([' 2017-03-24 
"2017-03-17'， 


"2017-03-23’ ，" 2017-03- 
"2017-03-16’ ，" 2017-03-15' ， 


2014-04-09" ，' 2014-04-08’，' 2014-04-04" ，' 2014-04-03' ，' 2014-04-02' ， 
2014-04-01’,* 2014-03-31’，* 2014-03-28”，* 2014-03-27" ，*2014-03-26”]， 
dtype=" object’, nane= date’, length=733) 


图 13-11 


比如 ,我 们 看 到 数据 共有 733 行 数据 ,包括 从 2014 年 3 月 26 号 到 2017 年 3 月 24 日 
的 数据 。 
第 二 步 : 保存 数据 ,如 图 13-12 所 示 。 


In [156]: import tushare as ts 
data=ts. get_hist_data( sh ) 
data. to_csv “G:\pybook\index. csvy” 


图 13-12 


第 三 步 ,再 打开 数据 ,如 图 13-13 所 示 。 


In [157]: import pandas as pd 
df=pd. read_csv (“G:\pybook\index. csv”, parse_dates=True, index_col=0) 


13-13 
这 里 需要 注意 的 是 关于 read_csv 函数 是 个 非常 重要 的 函数 ,但 是 它 的 参数 又 是 特别 
多 的 ,我 们 没 必要 都 去 记 住 , 只 是 需要 掌握 几 个 重要 的 就 可 以 了 。 这 里 有 两 个 参数 是 很 重 
要 的 ,大 家 必须 掌握 。 


Parse_dates 主要 是 为 了 使 得 原来 获得 数据 中 的 日 期 形式 转换 成 为 Datetime Index 
形式 的 ,这 样 才 能 使 用 前 面 我 们 提 及 的 resample 函数 以 及 groupby 函数 ,这 一 点 非常 重 
要 ,否则 ,使 用 采样 函数 的 时 候 是 会 出 错 的 ,如 图 13-14 所 示 。 


In [158]: import tushare as ts 
data=ts. get_hist_data(“sh’") 
Haata. to_csv (“6G: \pybooklindes. csv 
data. groupby (lasbda x:x. month). mean 


AttributeError Traceback (nost recent call last) 
《ipython-input-158-elca22d45ebb》 in sodule>0 

2 data=ts. get_hist_data(’sh” 

3 ydata to_csv(“C:\pybook\index. csv”) 
一 ”4 data. grcupby (lanbda x:1. month). mean 


C:\Program Files\Anaconda3\lib\site-packages\pandas\core\generic. py in groupby (seli, by, axis, level, as. 


kwargs) 
3776 return groupby(self, by=by, is, level=level, as_index=as_index, 
3777 sort=sort, group_keys-group_keys, squeese=squeese, 

> 3778 warga) 
3779 


3780 def asfreq(self, freq, method-None, how-None, normalise-False) 


图 13-14 


设 定 index_col=0 或 者 false 的 意思 是 pandas 不 适用 第 一 列 作为 行 索引 。 
下 面 我 们 查看 是 否 有 时 间 重 复 的 数据 ,图 13-15。 


图 13-15 


如 果 我 们 希望 数据 按照 时 间 先 后 进行 排序 ,那么 我 们 最 好 使 用 sort_index 进行 重新 
排序 ,如 图 13-16 所 示 。 


In [177]: data2=data. sort_index(ascending=True) 
data2 


Out[177]: open |high close |low volume |price_change| 


date 


2014-03-26 | 2070.574 | 2074.572 | 2063.670 | 2057.648 | 1026111.19 | -3.641 
2014-03-27 | 2060.812 | 2073.982 | 2046.588 | 2042.713 | 1191493.75 | -17.082 
2014-03-28 | 2046.851 | 2060.134 | 2041.712 |2035.243 | 1216819.62 | -4.876 
2014-03-31 | 2043.045 | 2048.134 | 2033.306 | 2024.185 |943565.38 |-8.406 
2014-04-01 | 2031.005 | 2050.681 | 2047.460 | 2028.096 | 832865.75 |14.154 
2014-04-02 | 2049.423 | 2060.778 | 2058.988 | 2046.742 | 1026585.25 | 11.528 


2014-04-03 | 2063.497 | 2066.007 |2043.702 | 2037.447 | 1086184.25 | -15.286 
2014-04-04 | 2037.552 | 2060.104 | 2058.831 |2035.221 |831890.56 |15.129 
2014-04-08| 2054.53012102 452 12098.284| 2052 90011333709.88139.453 


图 13-16 


第 四 步 : 我 们 通过 日 线 数据 使 用 groupby 函数 获得 月 线 数据 ,如 图 13-17 所 示 。 
第 五 步 : 绘图 ,如 图 13-18 所 示 。 
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虽 


In [161]: | import pandss as 


ma 


df-pd. read_csv (G6: \pybook\index. cs parse_dates-True, index._col=0) 
df. groupby lambda #:x.morth). moan | 


out[161 : 


open high close low volume price_change | p_change |mas 

1 | 3139 821293 | 3179 890655 | 3137 909155 | 3098 813172 | 2 380120e+06 |-13282138 |-0.392586 |3162 909569 

/ 2 | 3066 661633 | 3001 426469 | 3070 521000 | 3042 312714 |2046312e+06 |2.711837 0089502 |3064.485592 
/ 3 |3124256433| 3150 .893552| 3135 402149 | 3103 831507|2695414e+06 |11.153000 0346567 |3114.695552 
4 | 3080.443274| 3109 829000 | 3089 908581| 3054 145629 |2988997e+06 |10.019484 。 |0240484 |3068.287661 
f 5 |3112.835311 | 3142 992934 | 3114 892836 | 3077 451410 |2461427e+06 |2.633328 0074098 |3109 103377 
6 | 3273 519508 | 3305 620230 | 3272 171672| 3216.950295 | 2 891445er06|-5 119902 |-0.087869 | 3286 .246787 

7 | ze76 oo1254| 3023 155030 | 2982 799597 | 2936 594612|3012867e+06|-6.127239 。 |-0.073582 |2991.691672 

8 | 2952 659954 | 2985 478738 | 2957 084523 | 2921 662785 | 2464501e+06 |-5 168492 。 | -0.114154 | 2970.525246 

9 | 2812.090279|2839 282246 | 2818 813557 | 2790 441295 | 2024488e+06 |-1.431639 。 | -0.009344 | 2819.788803 

10| 2904 680059 | 2928 520804 | 2913 367451 | 2885 192314 | 2 339803e+06 |9 448588 0315490 |2804 950000 


图 13-17 


In [4]: | import pandas as 


df.plot 


1e7 


pd 


Wmatplotlib inline 


Out[4]: 《matplotlib, axes._subplots. AxesSubplot at 0x21ed3d6d518> 


df=pd. read_esv (“G:\pybook\index. cav”, parse_dates=True, index_col=0) 
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图 13-18 


当然 这 样 全 部 画 出 来 ,看 起 来 很 凌乱 ,我 们 可 以 选取 一 部 分 进行 画图 。 


比如 ,我 们 在 图 13-19 中 画 出 了 收盘 数据 .5 日 均线 、20 日 均线 。 如 果 我 们 还 想 画 出 


60 日 均线 的 话 ,就 可 以 使 用 rolling 函数 了 ,如 图 13-20 所 示 。 
这 里 需要 注意 的 几 个 事项 如 下 
(1) df=df. sort_index(ascending 一 True) 。 


这 个 语句 说 明 的 是 : 因为 涉及 自己 计算 均值 ,所 以 我 们 先 统一 把 数据 按照 日 期 升序 


进行 排列 。 


(2) ma60= ma60. fillna(df. close[59]) 。 


这 个 语句 说 明 的 是 : 60 日 均线 前 60 个 数据 都 是 NaN, 所 以 我 们 把 df. close[59j] 这 个 


数据 ,也 就 是 第 60 个 数据 蔡 换 为 NaN。 


In [5]: fig data=df[[“close”, “ma5”, “ma20"]] 


fig_data. plot 


Out[5] : matplotlib. axes._subplots. AxesSubplot at Ox2led8d7fe10> 


In [68]: import pandas as pd 

ax=plt, figure() 

haatplotlib inline 

df=pd, read_csv (6: \pybook\index. csv”, parse_dates=Tru: 
dfedf. sort_index(ascending"True) 

ma60=df. close. rolling (60). nean() 

ma60=ma60. fillna(df. close[59]) 

df["ma60"]=na60 
df[[”close”, "ma5”, 


20", “ma60"]]. plot 


Out[68]: 《matplotlib. axes. _subplots. AxesSubplot at 0x2887f8c8198> 
5500 


5000 


2000 Os 1 


index_col=0) 


L . 1 
中 5 
RN 
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date 


(3) df["ma60"] 一 ma60。 
这 个 语句 说 明 的 是 : 把 ma60 数据 添加 到 df 对 象 上 。 
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量化 投资 介绍 


近年 来 ,量化 投资 成 了 国内 金融 市 场 发 展 的 热点 ,大 家 聚 在 一 起 不 谈 一 下 量化 对 冲 就 
觉得 好 像 不 是 做 投资 的 一 样 。 现 在 ,量化 投资 和 基本 面 分 析 、 技 术 面 分 析 可 以 说 是 三 大 主 
流 方法 。 

1. 什么 是 量化 投资 

提起 价值 投资 ,我 们 都 太 熟 悉 了 ,大 家 都 知道 其 代表 人 物 是 巴 非特 。 

提起 量化 投资 ,不 得 不 提起 华尔街 传奇 人 物 詹 姆 斯 西蒙 斯 (James Simons)。 西 蒙 
斯 是 世界 级 的 数学 家 ,也 是 资深 的 对 冲 基金 经 理 之 一 。 因 其 通过 将 数学 理论 巧妙 融合 到 
投资 的 实战 之 中 ,西蒙 斯 成 了 投资 界 中 首屈一指 的 “模型 先生 ”。 由 其 运作 的 大 奖章 基金 
(Medallion) 在 1989 一 2009 年 的 20 年 间 , 平 均 年 收益 率 为 35%, 若 算 上 44% 的 收益 提 
成 , 则 该 基金 实际 的 年 化 收益 率 可 高 达 60%, 比 同期 标 普 500 指数 年 均 回 报 率 高 出 20 多 
个 百分点 ,即使 相 较 金融 大 鳄 索 罗斯 和 股神 巴菲特 的 操 盘 表 现 ,也 要 遥遥 领先 十 几 个 百 
分 点 。 

西蒙 斯 通过 将 数学 模型 和 投资 策略 相 结合 ,逐步 走 上 神 坛 ,开创 了 由 他 打 旗 的 量化 时 
代 。 西 蒙 斯 做 的 事情 就 是 量化 投资 。 

量化 投资 就 是 利用 计算 机 技术 并 且 采 用 一 定 的 数学 模型 去 实践 投资 理念 ,实现 投资 
策略 的 过 程 。 

价值 投资 和 技术 分 析 是 引领 过 去 一 个 世纪 的 投资 方法 , 随 着 计算 机 技术 的 发 展 ,已 有 
的 投资 方法 和 计算 机 技术 相 了 融合 ,产生 了 量化 投资 。 

2. 量化 投资 vs 传统 投资 

传统 的 股票 投资 主要 有 价值 投资 和 技术 分 析 ,价值 投资 是 看 基本 面 的 ,而 技术 分 析 研 
究 的 是 各 种 图 形 。 与 传统 的 投资 方法 不 同 ,数量 化 投资 不 是 以 个 人 判断 来 管理 资产 ,而 是 
将 投资 经 理 的 思想 ,经 验 和 直觉 反映 在 量化 模型 中 ,利用 计算 机 帮助 人 脑 处 理 大 量 信息 ， 
并 进行 投资 决策 。 

对 传统 主动 型 投资 人 而 言 ,决策 广度 的 有 限 性 ,体现 在 跟踪 股票 数量 上 的 限制 ,以 及 
决策 时 思考 变量 上 的 限制 ;量化 投资 具有 更 大 的 投资 视角 和 广度 ,能够 快速 高 效 地 在 全 市 
场 范围 内 进行 海量 信息 处 理 和 挖掘 。 当 然 ,传统 的 主动 投资 方法 在 决策 深度 上 是 有 优势 
的 ,所 以 ,做 更 加 深入 的 基本 面 研 究 , 以 弥补 决策 广度 的 不 足 是 决定 成 败 的 关键 。 但 是 , 随 
着 市 场 信 息 传 递 速度 的 加 快 , 众 多 分 析 师 对 基本 面 数据 的 不 断 控 掘 ,更 加 深入 的 分 析 似 乎 
越 来 越 难以 弥补 决策 广度 的 不 足 。 同 时 ,传统 投资 的 管理 者 本 身 情绪 难免 会 受到 周边 环 
境 的 影响 ,常常 会 作出 一 些 偏离 自己 判断 的 交易 行为 ,而 量化 投资 客观 性 、 纪 律 性 较 强 , 按 
照 严 格 的 策略 规则 理性 投资 .能 有 效 克服 投资 过 程 中 的 随意 性 和 情绪 化 行为 。 

量化 投资 方法 可 以 广泛 应 用 在 整个 投资 流程 中 .从 自 上 而 下 的 资产 配置 .行业 配置 、 


风格 配置 ,到 自 下 而 上 的 数量 化 选 股 等 。 

量化 投资 并 不 是 传统 投资 方式 的 对 立 者 ,本 质 上 只 是 一 种 投资 手段 , 随 着 计算 机 技术 
的 发 展 产 生 的 一 种 投资 手段 。 就 像 随 着 计算 机 技术 的 发 展 ,大 数据 的 概念 也 随 之 产生 了 。 

量化 基金 的 主要 特点 是 将 定性 研究 的 理论 通过 数量 模型 演绎 出 来 ,借助 计算 机 强大 
的 处 理 信息 的 能 力 ,全 范围 地 筛选 符合 “标准 ”的 股票 ,避免 任何 投资 “盲点 ”的 产生 ,最 大 
限度 地 捕 提 “标准 ”的 投资 对 象 。 由 于 借助 量化 模型 ,定量 投资 能 够 避免 基金 经 理 情绪 、 偏 
好 等 对 投资 组 合 的 干扰 ,精确 地 反映 基金 管理 人 的 投资 思想 ,最 大 限度 地 “理性 ”投资 。 

3. 量化 投资 的 价值 

量化 投资 对 于 基金 公司 /资产 管理 公司 而 言 , 有 着 非常 明显 的 价值 。 

首先 是 容易 冲 规模 。 一 个 有 效 的 量化 模型 是 可 以 在 多 个 产品 上 进行 快速 复制 ,从 而 
迅速 做 大 规模 。 这 个 在 巴克 莱 的 指数 增强 系列 产品 上 得 到 了 最 明显 的 体现 。 截 至 2011 
年 底 , 巴 克 莱 量 化 基金 ,管理 规模 超过 1.6 万 亿美 金 , 超 过 富 达 基金 ,成 为 全 球 最 大 的 资产 
管理 公司 。 

其 次 是 可 以 获得 绝对 收益 。 利 用 量化 对 冲 方式 ,构建 与 市 场 涨 跌 无 关 的 产品 , 赚 取 市 
场 中 性 的 策略 ,适合 追求 稳健 收益 的 大 机 构 客户 ,如 保险 资金 .银行 理财 等 。 这 个 产品 的 
代表 性 公司 就 是 目前 全 球 最 大 的 对 冲 基金 Bridge Water, 旗 下 的 旗舰 产品 Pure Alpha 过 
去 5 年 共 赚 取 超过 350 亿美 金 。 

最 后 是 杜绝 了 内 幕 消 息 和 老鼠 仓 。 量 化 投资 只 利用 公开 数据 ,通过 数学 模型 的 运算 ， 
挖掘 出 隐藏 在 公开 数据 后 面 的 信息 ,从 而 战胜 市 场 , 从 方法 论 上 杜绝 了 内 幕 消 息 的 可 能 。 
在 交易 过 程 中 利用 复杂 的 IT 系统 进行 程序 化 交易 ,使 得 老鼠 仓 也 无 法 成 为 可 能 。 在 国 
内 金融 市 场 监管 日 趋 规范 的 情况 下 ,量化 投资 这 种 方法 必然 会 成 为 投资 研究 的 主要 方法 。 

4. 量化 投资 的 理论 基础 

说 到 量化 投资 的 理论 基础 ,就 要 从 市 场 有 效 性 假说 说 起 ,技术 分 析 、 基 本 面 分 析 和 量 
化 分 析 代 表 了 有 效 市 场 的 三 个 不 同 的 层次 。 在 无 效 市 场 中 ,技术 分 析 是 充分 有 效 的 ,这 在 
中 国资 本 市 场 最 初 的 10 年 得 到 了 很 好 的 体现 ; 当 市 场 进 入 弱 有 效 市 场 后 ,可 以 依靠 基本 
面 分 析 获 得 超额 收益 ,2000 一 2010 年 这 10 年 基本 上 属于 这 个 时 代 ; 当 市 场 进入 半 强 有 效 
市 场 后 ,也 就 是 从 2010 年 开始 我 们 可 以 观察 到 大 部 分 基本 面 分 析 的 产品 已 经 无 法 获得 超 
额 收益 ,此 时 国内 市 场 已 经 进入 半 强 有 效 市 场 。 当 然 当 市 场 进入 强 有 效 市 场 后 , 则 无 论 哪 
种 方法 均 无 法 战胜 市 场 , 那 时候 只 能 被 动 指数 化 投资 。 

传统 的 有 效 市 场 假说 认为 ,在 半 强 有 效 市 场 ,只 能 依靠 非 公开 信息 (内 幕 消息 或 者 私 
人 消息 ) 来 获得 超额 收益 。 但 是 我 们 可 以 知道 的 是 ,除了 非 公开 信息 并 不 是 只 有 内 幕 消 息 
和 私人 消息 外 ,还 有 一 个 获得 非 公开 信息 的 方法 :就 是 利用 数据 挖掘 的 方法 ,从 公开 的 数 
据 中 挖掘 出 非 公开 信息 ,也 就 是 量化 投资 的 方法 。 这 也 就 是 在 美国 等 成 熟 市 场 (基本 上 进 
入 半 强 式 有 效 市 场 状 态 ) ,量化 投资 为 什么 可 以 得 到 蓬勃 发 展 的 原因 。 

随 着 资本 市 场 有 效 性 的 提高 ,中 国 开 始 进入 半 强 式 有 效 市 场 阶 段 , 再 加 上 监管 层 对 内 
幕 消 息 的 监管 越 来 越 严厉 ,使 得 通过 这 种 方法 获得 非 公 开 信息 的 方式 越 来 越 难 , 因 此 量化 
投资 就 成 了 一 个 最 好 的 获得 非 公开 信息 的 科学 理论 与 技术 。 

通过 上 述 对 有 效 市 场 假说 的 分 析 ,已 经 得 到 了 明确 的 答案 :量化 投资 是 在 半 强 式 有 效 
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市 场 中 的 最 佳 分 析 理论 ,也 几乎 是 唯一 可 行 的 分 析 理 论 。 

5. 量化 投资 的 前 景 

中 国 经 济 经 过 30 年 的 高 速 发 展 ,各 行 各 业 基本 上 已 经 定型 ,能 够 让 年 轻 人 成 长 的 空 
间 越 来 越 小 了 。 未 来 10 年 ,量化 投资 与 对 冲 基 金领 域 是 少 有 的 几 个 ,可 无 论 是 出 生 贵 贱 ， 
无 论 是 学 历 高 低 , 无 论 是 有 无 经 验 ,只 要 你 勤奋 、 努 力 。 脚 踏实 地 地 研究 模型 ,研究 市 场 ， 
开发 出 适合 市 场 稳健 熏 利 的 交易 系统 ,实现 财务 自由 ,并 非 是 遥 不 可 及 的 梦想 。 

你 只 要 好 好 研究 量化 模型 ,找到 持续 稳定 列 利 的 策略 ,自然 就 会 有 大 量 的 资金 来 找 你 
合作 ,实现 财务 自由 。 到 时 候 你 就 可 以 开 着 游艇 出 海 ,去 拉 斯 维 加 斯 享受 ,去 非洲 草原 猎 
象 ,又 何必 在 乎 眼前 的 这 点 免费 旅游 呢 。 

在 中 国 目前 的 很 多 领域 ,赚钱 已 经 变 成 一 个 非常 困难 的 事情 ,但 是 在 量化 投资 与 对 冲 
基金 领域 , 却 完全 可 以 依靠 自己 的 勤奋 与 努力 去 赚钱 。 一 个 持续 稳定 赚 取 的 模型 ,不 是 靠 
关系 和 背景 就 可 以 的 ,而 是 要 靠 着 自己 的 聪明 才智 和 脚踏实地 的 工作 。 
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量化 投资 是 量化 金融 行业 中 最 为 尖端 的 一 个 领域 ,不 论 你 是 希望 通过 面试 还 是 构建 
自己 的 交易 策略 ,都 会 花费 大 量 的 时 间 与 精力 学 习 相关 的 知识 。 不 仅 如 此 ,你 还 需要 过 硬 
的 编程 技术 ,至 少 需 要 精通 一 门 高 级 编程 语言 (如 MATLAB、R 或 Python) ,而且 伴随 着 
高 频 交 易 策 略 的 日 益 盛 行 ,技术 层面 对 于 策略 执行 效果 越 来 越 至 关 重 要 ,精通 C/C++ 也 
许 是 做 高 频 交 易 最 佳 的 选择 。 

量化 投资 系统 包含 以 下 四 个 部 分 : 

(1) 策略 构建 。 策 略 构建 即 寻找 策略 ,发 掘 可 用 优势 ,决定 交易 频率 。 

(2) 策略 回 测 。 策 略 回 测 即 获 取 数 据 , 分 析 策 略 表现 ,排除 模型 偏差 。 

(3) 交易 执行 系统 。 交 易 执 行 系统 即 对 接 经 纪 商 ,自动 化 交易 ,合理 减少 交易 费用 。 

(4) 风险 管理 。 风 险 管理 即 最 优化 资产 配置 ,根据 凯利 公式 与 交易 心理 学 决定 风险 

1. 策略 构建 

量化 投资 始 于 研究 ,研究 过 程 包含 选 定 策略 、 校 验 策略 (检查 其 是 否 与 当前 投资 组 合 
的 其 他 策略 有 冲突 )、 优 化 策略 (通过 数据 对 策略 调 优 ,提高 回报 率 , 降 低 风 险 ) 等 过 程 。 

获得 策略 的 地 方 有 很 多 ,各 个 相关 网 站 社区 以 及 百度 文库 ,如 果 使 用 Google 会 发 现 
国外 有 很 多 不 错 的 论文 ,比如 SSRN 网 站 的 文章 。 

策略 /策略 集 一 旦 构建 完成 ,就 需要 用 历史 数据 进行 收益 能 力 的 评估 测试 。 接 下 来 就 
是 回 测 发 挥 的 环节 了 。 

2. 策略 回 测 

策略 回 测 的 目的 在 于 使 用 历史 及 样本 外 数据 对 策略 进行 验证 ,确定 其 能 否 创造 预期 
收益 ,结果 也 会 被 看 作 是 该 策略 实 盘 操作 的 一 个 预期 值 。 但 实 盘 涉 及 因素 极其 复杂 , 回 测 
并 不 能 确保 策略 的 成 功 。 

回 测 可 能 是 量化 投资 中 要 求 最 为 精细 的 一 环 , 因 为 太 多 可 能 的 人 为 偏差 会 涉及 其 中 ， 
一 般 包 括 前 视 偏 差 . 幸 存 偏 差 和 优化 偏差 (也 被 称 为 数据 透视 偏差 ) 。 

通过 历史 数据 测试 及 优化 是 回 测 必须 的 步骤。 现在 国内 有 好 几 家 量化 交易 平台 都 支 
持 回 测 ,后 面 我 们 会 介绍 一 些 常见 的 平台 。 

进行 回 测 时 , 回 测 系统 一 般 会 给 出 策略 的 收益 表现 。 一 般 来 讲 ,我 们 会 关注 几 个 常见 
的 指标 ,比如 2 一 3 个 ,很 多 平台 会 提供 几 十 个 指标 ,具体 情况 读者 可 以 自己 权衡 。 下 面 我 
们 介绍 几 个 非常 重要 的 指标 。 

(1) 胜率 。 胜 率 反 映 的 是 到 利 的 概率 , 指 的 是 在 一 个 策略 运行 固定 的 周期 内 ,在 所 有 
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的 交易 次 数 中 ,恒利 的 次 数 所 占 的 百分比 。 

(2) 总 熏 利 /总 亏损 。 总 盈利 /总 亏损 反映 的 是 一 利和 亏损 的 关系 ,如 果 和 至 利 次 数 高 
但 每 次 恒利 的 金额 很 小 ,也 会 导致 实际 盘 利 不 大 ,所 以 需要 考察 盈利 和 亏损 的 关系 。 

(3) 夏普 比率 。 夏 普 比 率 (sharpe ratio) ,又 被 称 为 夏普 指数 。 夏 普 比 率 是 一 个 可 以 
同时 对 收益 与 风险 加 以 综合 考虑 的 三 大 经 典 指标 之 一 。 投 资中 有 一 个 常规 的 特点 , 即 投 
资 标的 的 预期 报酬 越 高 ,投资 人 所 能 忍受 的 波动 风险 越 高 ;反之 ,预期 报酬 越 低 ,波动 风险 
也 越 低 。 这 个 指标 重要 性 就 在 于 刻画 了 收益 和 风险 的 关系 。 

(4) 最 大 回 撤 率 。 在 选 定 周期 内 任 一 历史 时 点 往 后 推 ,产品 净值 走 到 最 低 点 时 的 收 
益 率 回 撤 幅 度 的 最 大 值 。 最 大 回 撤 用 来 描述 买 入 产品 后 可 能 出 现 的 最 糟糕 的 情况 。 最 大 
回 撤 是 一 个 重要 的 风险 指标 ,对 于 对 冲 基金 和 数量 化 策略 交易 ,该 指标 比 波动 率 还 重要 。 

大 家 可 以 看 到 前 两 个 是 反应 盘 利 的 指标 ,后 两 个 是 反应 风险 的 指标 。 事 实 上 ,读者 随 
着 不 断 的 熟练 或 者 交易 策略 本 身 的 要 求 会 选择 不 同 的 指标 体系 进行 评价 。 

如 果 对 于 回 测 ,针对 回 测 的 评价 体系 也 符合 预期 ,那么 就 可 以 构建 交易 执行 系统 了 。 

3. 交易 执行 系统 

通过 交易 执行 系统 ,策略 产生 的 交易 指令 被 传送 给 经 纪 商 并 执行 。 现 实 当中 ,指令 生 
成 可 以 是 半自动 或 者 全 自动 的 ,执行 机 制 也 可 以 配置 为 手工 、 半 手工 或 者 完全 自动 。 低 频 
交易 中 ,手工 和 半 手 工 较为 常见 ,而 高 频 交易 则 需要 建立 完全 自动 化 的 执行 机 制 ,通常 也 
需要 与 指令 生成 模块 紧密 配合 。 

构建 交易 执行 系统 的 关键 在 于 对 接 券 商 的 接口 .降低 交易 费用 的 策略 (包含 佣金 、 滑 
点 及 经 纪 商 买卖 差价 ) 及 处 理 实 盘 与 回 测 预测 业绩 差异 的 处 理 。 

执行 过 程 中 经 常会 出 现 问 题 的 地 方 在 于 交易 费用 的 优化 ,最 为 常见 的 费用 包括 以 下 
三 类 ， 

(1) 佣金 / 税 费 (commission/tax)。 佣 金 / 税 费 通常 由 经 纪 商 、 交 易 所 收取 。 

(2) 滑 点 (slippage)。 滑 点 指 订单 希望 的 成 交 价格 与 实际 成 交 价格 的 差异 (一 般 会 在 
行情 波动 大 或 市 场 缺乏 流动 性 的 时 候 出 现 ) 。 

(3) 价差 (spread)。 价 差 指 交易 标的 的 买卖 报价 之 差 ,注意 价差 并 非常 量 , 它 会 跟随 
市 场 订单 的 情况 而 不 停 变 化 。 这 个 在 高 频 交 易 中 非 常 明显 ,对 收益 的 影响 也 非常 显著 。 

交易 成 本 对 策略 影响 很 大 ,甚至 可 以 让 一 个 原本 高 盈利 、 高 夏普 率 的 策略 摇身一变 成 
为 很 糟糕 的 策略 ,通过 回 测 正确 预测 交易 成 本 极 具 挑 战 性 。 依 据 交 易 策 略 频率 ,需要 获取 
历史 成 交 数 据 ( 包 含 逐 笔 交 易 的 买卖 信息 ) ,数据 量 很 大 ,所 以 大 型 基金 中 ,基本 所 有 宽 客 
团队 都 在 专注 于 指令 的 执行 优化 。 

交易 执行 系统 最 后 一 个 主要 关注 点 在 于 策略 的 真实 表现 与 回 测 中 的 期 望 的 差别 ,有 
许多 原因 都 会 导致 这 种 情况 ,比如 之 前 在 回 测 部 分 已 经 提 到 的 前 视 偏差 和 数据 透视 偏差 。 
但 一 些 策略 在 真实 运行 前 很 难 发 现 偏差 ,高 频 交 易 尤 为 明显 。 交 易 策略 和 指令 执行 系统 
都 可 能 存在 回 测 中 无 法 复 现 ,但 在 实 盘 中 会 出 现 一 些 预想 不 到 的 错误 ,市 场 也 可 能 因为 一 
个 策略 的 部 署 从 而 天 翻 地 覆 。 

新 的 监管 环境 ,投资 者 情绪 与 宏观 经 济 的 变化 都 可 能 导致 市 场 行为 的 变化 ,进而 也 会 
影响 策略 的 表现 。 所 以 策略 的 不 断 更 新 和 优化 是 一 个 烦琐 和 累积 的 过 程 。 


4. 风险 管理 

做 交易 ,新手 和 老手 最 大 的 区 别 可 能 就 是 对 风险 管理 的 态度 了 ,因为 这 个 问题 很 容易 
理解 ,但 是 很 难 控制 ,特别 是 作为 一 个 交易 身 临 其 境 , 面 对 金钱 那么 近 , 面 对 行情 波动 的 时 
候 , 那 种 心情 就 像 足 球场 上 看 球 的 和 踢 球 的 一 样 。 

常见 的 风险 有 技术 性 风险 (比如 交易 所 的 服务 系统 突然 发 生 了 硬盘 故障 ) 经纪 商 风 
险 (比如 经 纪 商 网 络 出 现 问题 ) ,托管 的 服务 器 网 络 故障 等 。 简 言 之 ,只 要 影响 交易 进行 的 
因素 ,就 可 能 带 来 风险 。 


15.2 量化 投资 平台 


我 们 这 里 介绍 的 量化 投资 平台 主要 指 的 是 可 以 通过 Python 进行 编程 实现 的 量化 投 
资 平 台 ,所 以 不 会 包括 金字 塔 \TB 或 者 MC 这 些 知 名 的 量化 投资 平台 。 

1. 数据 支持 

数据 方面 ,我们 推荐 Wind 以 及 TuShare。 

(1) Wind 

Wind 在 国内 的 地 位 就 相当 于 国外 的 彭 博 ,数据 全 是 第 一 个 优势 。 

在 国内 市 场 , Wind 资讯 的 客户 包括 中 国 绝 大 多 数 的 证 券 公司 、 基 金管 理 公司 \ 保 险 
公司 银行 和 投资 公司 等 金融 企业 ;在 国际 市 场 ,已 经 被 中 国 证 监 会 批准 的 合格 境外 机 构 
投资 者 (QFID 中 的 众多 机 构 是 Wind 资讯 的 客户 。 

在 金融 财经 数据 领域 , Wind 资讯 已 建成 国内 完整 的 \ 准 确 的 以 金融 证 券 数据 为 核心 
一 流 的 大 型 金融 工程 和 财经 数据 仓库 ,数据 内 容 涵 盖 股 票 基金、 债券 外汇、 保险 、 期 货 、 
金融 衍生 品 、 现 货 交易 、 宏 观 经 济 、 财 经 新 闻 等 领域 ,新 的 信息 内 容 及 时 进行 更 新 以 满足 机 
构 投 资 者 的 需求 。 

第 二 个 优势 也 是 我 们 要 重点 介绍 的 , Wind 有 一 个 大 奖章 的 网 站 (http://snap. 
windin. com/ dajiangzhang/) ,主要 是 针对 Wind 提供 的 各 种 获取 数据 的 接口 ,如 图 15-1 


各 大 奖章 首页 话题。 新闻 投资 机 会 
首页 > 开放 接口 > 接口 下载 接 D 下 载 由 
开放 接口 1 接 D 明 
六 用 前 心 这 六 1. WindPy 圭 口 哑 玉 
Dasaea 荆 WindPy 广 D2 
DFA 3. 基 口 向 号 界面 
SE 全 WindPyaK 取 各 动人 经 
Matab 接 口 于 朋 
) R 滞 言 接口 手册 1. Windpy 按 口 概述 
yn O10 ,BMP yoni Netiet:, Retsi0 RA TR, TG ts Pent 
名 种 全 囊 奸 检 志 下- 
2013 年 9 月 ， 孔 推 出 Python 交易 插口 ， 支持 向 量化 下 单 - 
WindPudeDi 


图 15-1 
读者 可 以 通过 Python 的 接口 获取 Wind 的 数据 并 进行 更 精细 、 个 性 化 的 数据 分 析 ， 
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并 保存 数据 、 建 模 等 。 

(2) TuShare 

关于 TuShare 我 们 就 不 再 介绍 了 ,相对 来 说 ,TuShare 更 好 使 用 ,考虑 到 免费 以 及 对 
数据 需求 不 是 那么 深入 的 话 ,推荐 就 直接 使 用 TuShare。 

2. 量化 投资 平台 

量化 平台 可 以 看 作 是 一 个 已 经 搭建 好 的 框架 。 用 户 只 需 添加 一 些 自己 的 买卖 条 件 ， 
即 可 回 测 策略 , 免 去 了 自己 从 无 到 有 搭建 基础 框架 的 过 程 。 也 就 是 说 ,通过 量化 投资 平 
台 ,我 们 只 是 需要 做 的 是 构建 策略 和 回 测 。 

下 面 我 们 主要 介绍 优 矿 、. 聚 宽 `. 米 宽 和 京东 量化 金融 平台 。 它们 都 借鉴 于 
quantopian, 所 以 整体 框架 都 差不多 ,下 面 就 以 特色 做 介绍 。 

(1) 优 矿 (网 址 : https://uger. io/home/) 

QO@ 依靠 通联 集团 ,引入 了 海量 数据 ,数据 方面 有 优势 。 

@ 最 大 的 亮点 是 引入 了 jpyter notebook, 同 时 需要 使 用 Google 浏览 器 。 

(2) 聚 宽 ( 网 址 : https://www. joinquant. com/) 

QO 策略 信号 微 信 通知 。 

@ 适合 一 般 的 量化 投资 者 爱好 者 ,容易 上 手 。 

(3) 米 宽 (网 址 : https://www. ricequant. com/? f==n) 

Q@ 对 数据 的 使 用 比较 方便 。 

@ 适合 有 编程 基础 的 读者 。 

(4) 京东 量化 金融 (网 址 : https://quant. jd. com/) 

QO@ 依靠 京东 集团 资源 ,情景 化 强 , 对 于 在 京东 购物 和 理财 的 用 户 , 使 用 京东 量化 金融 
平台 是 不 错 的 选择 。 

@ 支持 Java, 对 于 那些 愿意 用 Java 的 是 一 个 利好 。 

以 上 这 些 观 点 ,主观 性 很 强 , 个 人 建议 还 是 看 个 人 喜好 ,然后 关于 策略 和 一 些 知识 的 
学 习 各 个 平台 都 有 一 些 不 错 的 资源 ,建议 都 去 往往 。 熟 悉 一 个 就 好 ,如 果 工 作 需 要 , 转 用 
其 他 的 ,都 是 差不多 的 。 


量化 策略 


16.1 量化 策略 概述 


1. 什么 是 策略 ? 

策略 ,可 以 实现 目标 的 方案 集合 ;在 证 券 交易 中 ,策略 是 指 当 预 先 设 定 的 事件 或 信号 
发 生 时 ,就 采取 相应 的 交易 动作 。 

2. 什么 是 量化 策略 ? 

量化 策略 是 指使 用 计算 机 作为 工具 ,通过 一 套 固 定 的 逻辑 来 分 析 、 判 断 和 决策 。 量 化 
策略 既 可 以 自动 执行 ,也 可 以 人 工 执行 。 

3. 一 个 完整 的 量化 策略 构建 

一 个 完整 的 策略 需要 包含 输入 .策略 处 理 逻 辑 、. 输 出 ;策略 处 理 迎 辑 需要 考虑 选 股 、 择 
时 、 仓 位 管理 和 止 列 止 损 等 因素 。 


16.2 常见 的 量化 交易 策略 


量化 策略 很 多 ,我 们 会 发 现 高 校 学 生 的 优势 可 能 就 在 于 对 算法 的 研究 ,因为 在 学 校 不 
像 在 市 场 上 参与 实务 操作 ,有 市 场 经 验 和 感觉 ,但 是 对 于 一 些 理论 研究 反而 没有 边界 , 设 
计 的 一 些 算法 可 能 还 是 不 错 的 策略 。 我 们 这 里 介绍 的 策略 也 是 基于 一 种 分 类 ,比如 对 于 
一 个 交易 标的 ,可 分 为 均值 回归 和 动量 策略 ;对 于 有 两 只 交易 标的 的 ,可 用 配对 交易 或 者 
统计 套利 ;对 于 有 多 个 交易 标的 的 ,可 有 多 因子 选 股 模型 。 接 下 来 ,我 们 将 分 别 予 以 介绍 。 

1. 双 均线 模型 

移动 平均 (moving average, MA), 又 称 “ 移 动 平均 线 ”, 简 称 均线 ,是 技术 分 析 中 一 种 
分 析 时 间 序 列 数 据 的 工具 。 最 常见 的 是 利用 股价 \ 回 报 或 交易 量 等 变量 计算 出 移动 平均 。 
均线 是 最 基础 的 动量 指标 ,一 般 短 期 均线 上 穿 长 期 均线 意味 着 近期 买 盘 较 强势 ,可 以 作为 
买 人 信号 ,俗称 " 金 叉 ”反之 短期 均线 由 上 向 下 穿 破 长 期 均线 意味 着 近期 卖 盘 较 强势 ,可 
以 作为 卖 出 信号 ,俗称 * 死 又 ”。 

2. 均值 回归 

先 讲 一 个 故事 。 从 前 有 座 山 ,山里 有 座 庙 , 庙 里 有 一 个 老 和 尚 ,这 个 老 和 尚 是 个 佛法 
高 深 的 住持 。 山 下 不 远 处 有 一 家 证 券 公司 , 跟 寺 庙 遥 到 相对 。 一 天 , 庙 里 来 了 许多 炒股 的 
人 ,在 昔 萨 面前 烧 了 许多 香 , 求 昔 萨 保佑 他 们 脱离 苦海 。 

老 和 尚 心 善 , 问 是 怎么 回 事 。 香 客 们 说 :“ 股 票 大 跌 , 我 们 被 深度 套牢 , 赔 了 很 多 钱 ， 
不 知 怎么 才能 脱身 。” 老 和 尚 心 想 :“ 我 不 人 地 狱 , 谁 入 地 狱 ?” 于 是 倾 其 所 有 , 买 进 股票 。 

过 了 一 段 时 间 , 股 市 大 涨 ,一 股 难 求 ,香客 们 又 来 庙 中 烧香 ,为 买 不 到 股票 发 愁 。 老 和 
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尚 念 道 :“ 善 哉 , 善 哉 ,先天 下 之 忧 而 忧 , 后 天 下 之 乐 而 乐 .” 于 是 把 所 有 股票 都 卖 个 精光 。 

几 个 来 回 , 老 和 尚 赚 了 很 多 钱 , 大 家 纷纷 向 老 和 尚 讨教 炒股 秘诀 。 老 和 尚 说 :“ 哪 有 
什么 秘诀 ,我 只 是 无 欲 无 求 , 抱 着 一 颗 善心 而 已 !” 

老 和 尚 用 的 就 是 均值 回归 策略 。 

我 们 可 以 把 均值 回归 看 作 是 资本 市 场 的 万 有 引力 定律 ,就 像 世 事 万物 都 有 “分 久 必 
合 , 合 久 必 分 ”的 一 样 。 

3. 配对 交易 

无 论 市 场 是 牛市 、 能 市 ,配对 交易 都 可 以 在 高 频 交 易 中 帮 投资 者 获得 一 笔 不 菲 且 稳定 
的 收益 。 这 类 配对 方法 主要 是 通过 做 多 一 只 股票 ,同时 做 空 另 一 只 与 其 存在 某 种 相关 性 
的 股票 而 获得 平稳 收益 。 

量化 策略 实现 步 又 如 下 : 

(1) 找到 相关 性 高 的 一 对 股票 

直观 上 来 看 ,我 们 需要 寻找 的 是 两 只 在 公司 主 营 业务 ,规模 大 小 甚至 是 风险 因素 等 方 
面 要 有 一 定 的 相似 性 的 股票 ,可 以 在 同一 行业 或 者 相关 联 行业 (如 房地产 和 钢铁 行业 ) 中 
寻找 。 另 外 ,还 可 以 通过 编写 程序 自动 查找 近 N 日 内 相关 系数 最 大 的 或 存在 协 整 关系 的 
一 对 股票 (可 采用 Pearson 相关 系数 计算 ,Johansen's 协 整 检验 等 )。 例 如 : 计算 一 段 时 间 
某 行 业内 所 有 股票 价格 的 相关 性 矩阵 ,选取 相关 系数 最 大 的 两 只 股票 。 

(2) 计算 时 间 段 内 股价 间 稳 定 关系 

设 主流 方法 是 寻找 到 对 数 股价 间 的 协 整 关 系 , 协 整 关系 的 检验 又 包括 两 个 子 过 程 , 首 
先是 确定 线性 关系 ;其 次 是 残 差 (residual) 序 列 的 平稳 性 检验 。 

(3) 交易 规则 的 制定 

交易 规则 的 制定 主要 包括 触发 机 制 的 确定 和 止 损 机 制 的 确定 。 价 差 序列 是 按 统计 规 
律 依 概率 收敛 而 非 必然 收敛 ,所 以 在 交易 过 程 中 可 能 会 遇 到 价差 序列 发 散 的 情况 ,如 配对 
组 合 中 股票 的 基本 面 突然 发 生变 化 等 ,在 带 来 巨额 收益 率 的 同时 也 会 出 现 巨额 的 亏损 , 因 
此 对 于 配对 交易 策略 ,风险 控制 显得 尤为 重要 。 

4. 多 因子 选 股 

多 因子 模型 是 应 用 最 广泛 的 一 种 选 股 模型 ,基本 原理 是 采用 一 系列 的 因子 作为 选 股 
标准 ,满足 这 些 因子 的 股票 则 被 买 人 ,不 满足 的 则 被 卖 出 。 

举 一 个 简单 的 例子 : 如 果 有 一 批 人 参加 马拉松 比赛 , 想 要 知道 哪些 人 会 跑 到 平均 成 
绩 之 上 , 那 只 需 在 跑 前 做 一 个 身体 测试 即 可 。 那 些 健康 指标 靠 前 的 运动 员 ,获得 超越 平均 

成 绩 的 可 能 性 较 大 。 多 因子 模型 的 原理 与 此 类 似 , 我 们 只 要 找到 那些 对 企业 的 收益 率 最 

相关 的 因子 即 可 。 

各 种 多 因子 模型 核心 的 区 别 第 一 是 在 因子 的 选取 上 ,第 二 是 在 如 何 用 多 因子 综合 得 
到 一 个 最 终 的 判断 。 

一 般 而 言 , 多 因子 选 股 模型 有 两 种 判断 方法 ,一 是 打分 法 ,二 是 回归 法 。 

打分 法 就 是 根据 各 个 因子 的 大 小 对 股票 进行 打分 ,然后 按照 一 定 的 权重 加 权 得 到 一 


个 总 分 ,根据 总 分 再 对 股票 进行 得 选 。 回 归 法 就 是 用 过 去 的 股票 的 收益 率 对 多 因子 进行 
回归 ,得 到 一 个 回归 方程 ,然后 再 把 最 新 的 因子 值 代入 回归 方程 得 到 一 个 对 未 来 股票 收益 
的 预 判 ,然后 再 以 此 为 依据 进行 选 股 。 

多 因子 选 股 模型 的 建立 过 程 主要 分 为 候选 因子 的 选取 、 选 股 因 子 有 效 性 的 检验 、 有 效 
但 完 余 因子 的 剔除 ,综合 评分 模型 的 建立 和 模型 的 评价 及 持续 改进 五 个 步骤 。 


/ 


/ 
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开启 你 的 量化 投资 之 旅 


说 起 量化 交易 入 门 ,很 多 时 候 得 到 的 答案 都 是 长 长 的 书 单 ,让 人 很 茫然 ,即使 你 在 网 
上 买 了 很 多 书 ,但 要 认 认真 真 读 完 一 本 的 都 可 能 很 少 。 
我 们 这 里 就 通过 使 用 聚 和 了 快速 入 门 。 整 个 流程 包括 数据 获取 、 策 略 回 测 、 行 情 链 
接 和 交易 信号 。 


我 们 通过 学 会 写 一 个 简单 的 量化 交易 策略 ,建立 一 个 模型 ,充分 理解 策略 的 基本 框 
架 , 学 会 建立 连接 实 盘 的 模拟 交易 ,并 使 其 自动 发 送 交易 的 信号 到 微 信 ,通过 微 信和 建立 跟 


进 自己 的 策略 效果 。 
首先 ,进入 JoinQuant, 单 击 导 航 栏 我 的 策略 ,新 建筑 略 ,进入 策略 编辑 画面 ,如 下 
图 17-1 所 示 。 
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图 中 左 侧 是 编写 策略 代码 , 右 侧 是 策略 运行 结果 。 我 们 就 在 左 侧 写 策略 代码 。 

下 面 我 们 就 写 个 量化 交易 策略 一 一 单 股 票 均线 策略 。 

1. 构建 策略 

若 昨 日 收盘 价 高 出 过 去 5 日 平均 价 , 今 天 开盘 买 人 股票 ; 若 昨 日 收盘 价 低 于 过 去 5 日 
平均 价 , 则 今天 开盘 卖 出 股票 。 

每 天 看 看 昨日 收盘 价 是 否 高 出 过 去 5 日 平均 价 , 是 的 话 开盘 就 买 人 ,不 是 的 话 开盘 就 
卖 出 。 每 天 都 这 么 做 ,循环 下 去 。 

对 应 代码 也 是 这 两 个 部 分 : 


def initialize (context) : 


用 来 写 最 开始 要 做 什么 的 地 方 。 


def handle data (context,data) : 


用 来 写 每 天 循环 要 做 什么 的 地 方 。 

几乎 所 有 策略 都 基于 这 个 基本 的 策略 框架 : 先 初始 化 ,然后 循环 操作 。 

(1) 初始 化 。 初 始 化 即 最 开始 要 做 的 事情 ,如 设 定 沪 深 300 作为 基准 、 开 启动 态 复权 
模式 (真实 价格 ) ,输出 内 容 到 日 志 上 、 交 易 时 的 手续 费 等 。 

(2) 周期 循环 。 周 期 循环 即 每 个 周期 要 做 的 事情 ,如 计算 指标 , 买 人 卖 出 等 ,周期 可 
能 是 分 钟 、 天 等 ,本 文 策略 的 周期 是 一 天 。 当 你 要 做 一 些 盘 中 短线 操作 的 时 候 , 周 期 就 要 
调 成 分 钟 ( 先 别 着 急 ,会 遇 到 的 ) 。 

我 们 写 设置 时 要 交易 的 股票 代码 ,比如 代码 中 的 平安 银行 (000001) 


def initialize (Context) : 


g. security 王 000001. XSHE'# 存 人 平安 银行 的 股票 代码 。 

"g. "是 什么 ? 全 局 变量 前 都 要 写 "g. ", 全 局 变量 就 是 全 局 都 能 用 的 变量 ,一 般 变 量 
只 能 在 该 函数 下 使 用 。 例 如 ,security 不 加 "g." ,只 能 在 第 一 部 分 即 initialize 里 用 。 

"XSHE" 是 什么 ? 股票 代码 使 用 时 要 加 后 级 ,深交 所 股票 代码 后 缀 为 ". XSHE ", 上 
交 所 股票 代码 后 级 为". XSHG"。 

代码 中 “# ?是 什么 2“ 划 ”后 的 内 容 都 是 注释 ,是 为 代码 做 说 明 的 ,不 会 被 计算 机 当 作 
代码 处 理 。 这 个 在 前 面 Python 中 已 有 说 明 。 

2. 获取 收盘 价 与 均 价 

首先 ,获取 昨日 股票 的 收盘 价 。 

# 用 法 : 变量 = data[ 股 票 代 码 ]. close。 


# 取 得 昨日 股票 价格 
current Price= close data['close'] [-1] 
然后 , # 获 取 股 票 的 收盘 价 
close data= attribute history(security, 5, 'ld', ['close']) 
# 取 得 过 去 五 天 的 平均 价格 
MRA5= close data['close'] .mean () 
# 取 得 上 一 时 间 点 价格 
current price=close data['close'] [-1] 
3. 判断 是 否 买卖 
数据 都 获取 完 ,该 做 买卖 判断 了 。 这 里 用 多 少 钱 买 人 ,我 们 需要 设置 资金 。 
# 如 果 上 一 时 间 点 价格 高 出 五 天 平均 价 1%, 则 全 仓 买 人 
if current price>1.01* MAS 


# 如 果 上 一 时 间 点 价格 低 于 五 天 平均 价 , 则 空仓 卖 出 


ifcurrent price<MR5 


4. 买 入 卖 出 
# 取 得 当前 的 现金 


cash= context .portfolio.available cash 


/ 


/ 


j 
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# 用 法 : order value (要 买 人 股票 股票 的 股票 代码 ,要 多 少 钱 去 买 ) 
order value (g.security，cash)# 用 当前 所 有 资金 买 人 股票 

# 用 法 : order target (要 买卖 股票 的 股票 代码 ,目标 持仓 金额 ) 
order target (g.security, 0)# 将 股票 仓位 调整 到 0, 即 全 卖 出 。 


(1) 为 什么 没有 指定 交易 价格 ? 此 策略 是 按 天 回 测 进行 的 , 且 使 用 较为 简单 的 市 价 
单 下 单方 法 ,交易 价格 为 开盘 价 ( 加 上 滑 点 ) 。 

(2) 无 法 交易 的 情况 ? 涨 跌停 ,停牌 ,(T 十 1) 制 度 等 无 法 交易 的 情况 ,系统 会 自动 使 
下 单 不 成 交 并 在 日 志 中 发 出 警告 。 

5. 策略 代码 写 完 , 进 行 回 测 

具体 的 代码 如 图 17-2 所 示 , 左 侧 已 经 是 一 个 很 具体 的 模板 了 ,读者 可 以 自行 阅读 ， 
熟悉 。 

现在 ,在 策略 回 测 界面 右上 部 ,设置 回 测 时 间 从 2016-09-01 到 2017-03-01 ,设置 初始 
资金 100 000, 设 置 回 测 频率 ,然后 单 击 “ 运 行 回 测 ” 按 钮 。 
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6. 建立 模拟 交易 ,使 策略 和 行情 实时 连接 ,自动 运行 
策略 写 好 , 回 测 完成 , 单 击 回 测 结果 界面 ,如 图 17-3 所 示 。 
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7. 开启 微 信 通知 ,接收 交易 信号 

单 击 聚 宽 导 航 栏 我 的 交易 ,可 以 看 到 创建 的 模拟 交易 。 

单 击 右边 的 微 信 通知 开关 ,将 OFF 调 到 ON ,按照 指示 扫描 二 维 码 , 绑 定 微 信 , 就 能 
用 微 信 接 收 交 易 信号 了 ,如 图 17-4 所 示 。 
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do 


后 记 


读书 和 赚钱 ,读书 也 许 仅仅 是 一 种 任务 ,一 种 兴趣 ,一 种 信仰 ,你 可 以 说 是 为 了 文化 传 
承 ; 赚 钱 可 是 很 客观 的 ,读书 和 赚钱 的 相关 性 并 没有 我 们 想象 的 那么 强 。 

科研 和 考试 ,科研 也 许 是 一 种 兴趣 ,一 种 信仰 ,考试 就 是 为 了 能 否 通过 ,考试 更 讲究 题 
海战 术 , 讲 究 技 术 。 

我 写 这 本 书 也 不 是 希望 你 要 去 研究 Python 这 门 语言 ,我 们 的 目的 很 简单 ,就 是 希望 
你 在 量化 投资 或 者 量化 金融 领域 能 知道 这 门 语言 ,掌握 这 门 语言 解决 一 些 数据 分 析 的 党 
见 问 题 ,就 像 你 使 用 Excel 一 样 。 也 许 , 可 以 这 么 说 ,很 久 以 前 ,办 公 需 要 掌握 的 是 Excel; 
但 是 现在 你 需要 掌握 的 是 Python。 

这 本 书 既 没有 长 篇 大 论 , 也 没有 介绍 的 那么 详细 ,不 是 针对 所 有 人 的 。 我 们 需要 的 是 
一 幅 地 图 ,掌握 这 门 语言 的 一 幅 地 图 ,毕竟 我 们 的 百宝箱 一 一 百度 是 很 强大 的 。 我 们 需要 
的 是 一 个 模型 ,毕竟 问题 总 是 很 具体 的 、 多 样 的 、 复 杂 的 ;而 我 们 掌握 的 模型 能 够 解决 遇 到 
的 大 部 分 问题 。 


